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图 灵 社 区 的 电子 书 没有 采用 专 有 客 
户 端 ， 您 可 以 在 任意 设备 上 ， 本 
己 喜 欢 的 浏览 器 和 PDF 阅读 器 进 
阅读 。 

但 您 购买 的 电子 书 仅 供 您 个 人 使 
用 ， 未 经 授权 ， 不 得 进行 传播 。 
我 们 愿意 相信 读者 具有 这 样 的 民 知 
和 咒 悟 ， 与 我 们 共同 保护 知识 产 
权 。 

如 果 购 买 者 有 侵权 行为 ， 我 们 可 能 
对 该 用 户 实 施 包 括 但 不 限于 关闭 该 
帐号 等 维权 措施 ， 并 可 能 退 究 法 律 
责任 。 
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内 容 提 要 
本 书 是 Mahout 领域 的 权威 着 作 ， 出 自 该 项 目 核 心 成 员 之 手 ， 立 足 实践 ， 全 面 介绍 了 基于 Apache Mahout 
的 机 需 学 习 技 术 。 本 书 开篇 从 Mahout 的 故事 讲 起 ， 接 着 分 三 部 分 探讨 了 推荐 系统 、 聚 类 和 分 类 ， 最 后 的 附 
录 涵 盖 JVM 调 优 、Mahonut 数学 知识 和 相关 资源 。 
本 书 适合 所 有 数据 分 析 和 数据 挖 所 人员 阅 读 ， 需 要 有 Java 语言 基础 。 
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退 漳 这 本 书 的 由 来 , 就 我 个 人 而 言 , 要 从 2005 年 说 起 ,我 的 一 个 朋友 当时 正在 创办 一 家 公司 ， 
急需 协同 过 滤 技 术 。 虽 然 当 时 可 以 找到 成 熟 、 开 源 的 软件 包 , 但 是 它们 要 么 太 过 繁复 ,要么 太 学 
术 化 。 所 以 ,我 决定 从 私 开 始 ， 为 这 个 朋友 的 创业 公司 开发 了 一 个 推荐 系统 的 简单 原型 。 遗 憾 的 
是 ， 这 家 创业 公司 天 折 了 。 然 而 ,我 却 无 法 说 服 目 己 删 除 这 个 原型 。 它 实在 有 趣 ， 于 是 我 对 它 进 
行 整理 并 写 了 文档 ， 用 Taste 这 个 名 字 将 它 发 布 为 一 个 开源 项 目 。 

一 年 无 声 地 过 去 了 。 我 在 业余 时 间 为 其 增加 了 一 些 代码 ,并 修复 了 一 些 问题 。 接 着 ， 有 一 两 
个 用 户 出 现 ， 并 提交 了 一 些 软件 bug 和 补丁 ， 然 后 又 有 了 几 个 用 户 ， 再 后 来 又 增加 了 好 一 些 。 到 
了 2008 年 ， 虽 然 小 但 却 稳 定 的 用 户 群 形成 了 了。 后 来 ， Apache Lucene 的 人 把 机 需 学 习 相 关 的 部 分 
剥离 出 来 形成 了 Apache Mahout， 他 们 建议 把 我 们 的 两 个 项 目 进 行 合并 。 此 后 ， 本 书 在 2009 年 晚 
些 时 候 开 始 立项 。 而 今 ， 当 看 到 这 个 项 目 滚 雪 球 般 地 发 展 到 2011 年 ， 并 开始 被 大 公司 在 生产 系统 
中 使 用 ,我 自己 既 惊 讶 又 欣喜 。 

的 确 ， 我 只 是 无 心 搬 柳 。 即 便 我 已 经 是 一 个 高 级 工程 师 ， 曾 在 谷歌 工作 过 ， 也 没有 人 会 误 认 
为 我 是 这 个 领域 的 专家 。 我 更 像 是 一 个 博物 馆 的 管理 者 ， 而 不 是 一 个 画家 ,我 将 一 个 领域 的 伟大 
思想 进行 搜集 、 组 织 和 打包 ,使 之 广 为 所 用 。 这 同样 不 失 为 一 项 有 用 的 工作 。 

一 些 人 在 谈 过 本 书 的 初稿 之 后 ， 说 它 是 一 本 “通俗 另 介 ” 的 机 需 学 习 书 。 这 是 一 种 盛 营 ， 而 
我 完全 赞同 。 机 融 学 习 有 其 魔力 所 在 , 不 过 这 个 领域 中 有 许多 研究 性 的 著作 对 于 非 专业 人 员 而 言 
就 像 天 书 , 它们 也 与 该 技术 的 应 用 实践 相去 甚 远 。 而 本 书 旨 在 让 读者 易于 理解 ,为 爱好 者 掏 示 领 
悟 的 快乐 ， 并 为 实践 者 市 省 工作 时 间 。 我 希望 你 阅读 本 书 时 的 尺 言 比 疑问 多 。 


Sean Owen 


我 对 机 需 学 习 的 兴趣 可 以 回溯 到 2006 年 上 大 学 的 那 段 日 子 。 那 时 ,我 作为 实习 生 和 一 组 人 
共同 设计 一 个 个 性 化 的 推荐 引擎 。 这 个 小 组 后 来 成 长 为 Minekey 公 司 ; 我 也 被 邀请 加 入 ， 成 为 
其 核心 开发 人 员 。 后 来 的 四 年 ， 我 一 直 从 事 机 需 学 习 技 术 的 实现 与 试验 。 在 此 期 间 ， 我 偶然 间 
发 现 了 Mahout， 并 开始 作为 一 个 Google Summer of Code 的 参 额 学 生 加 入 这 个 项 目 。 我 记得 ， 
接 下 来 的 事情 就 是 不 断 为 它 的 代码 库 贡 献 算 法 和 补丁 ,做 性 能 调 优 ， 以 及 帮助 邮件 列表 中 的 其 
他 人 。 


由 机 器 学 习 开 发 者 、 研 究 者 和 爱好 者 组 成 的 社区 非常 出 色 , 正在 不 断 成 长 ， 而 我 有 笠 成 为 这 
个 团队 的 一 员 。 随 着 越 来 越 多 的 公司 采用 Mahout, 它 正在 成 为 机 器 学 习 的 主流 软件 库 。 我 囊 心 希 
望 你 在 阅读 本 书 时 能 够 乐 在 其 中 。 


Robin Anll 


我 (Ted ) 在 机 融 学 习 上 是 先 做 研究 后 做 项 目 。 我 早期 从 事 的 是 学 术 工 作 ， 后 来 参与 了 一 些 
创业 团队 ， 从 而 得 以 将 机 融 学 习 在 实际 中 应 用 。 

我 ( Ellen ) 以 前 在 生物 化 学 和 分 子 生物 学 实验 室 工作 。 在 研究 大 量 数 据 的 同时 ,我 还 写 了 许 
多 技术 文章 。 此 看 经 历 , 让 我 痢 迷 于 数据 及 其 昔 含 的 意义 。 我 努力 把 这 种 内 在 的 东西 写 进 本 书 里 。 

我 们 两 个 人 一 致 认为 开源 有 赖 于 一 个 有 大 量 活跃 用 户 参 与 的 社区 .Mahout 的 成 功 主要 来 目 于 
那些 使 用 这 个 软件 的 人 ， 他 们 通过 在 邮件 列表 中 展开 讨论 、 修 复 bug， 以 及 提供 建议 ， 把 使 用 经 
验 回馈 到 这 个 项 目 中 。 

为 此 ， 本 书 不 仅 给 出 代码 的 实用 注解 ， 而 且 引 出 了 代码 背后 的 一 些 概念 。 介 绍 隐 尸 于 代码 痛 
后 的 框架 , 会 使 你 更 有 效 地 加 入 到 Mahout 的 讨论 中 , 并 从 中 获 益 。 我 们 希望 本 书 不 仪 能 够 帮助 读 
者 ， 而 且 能 够 使 Mahout 自 身 得 到 完善 和 发 展 。 


Ted Dunning 和 Ellen Friedman 


致谢 


本 书 的 出 版 离 不 开 众 人 的 人 努力。 作者 对 他 们 致 以 衷心 的 感谢 ,但 限于 户 幅 ， 和 致谢 名 单 只 列 出 
了 其 中 一 部 分 人 ， 排 名 不 分 先后 。 

口 在 机 帮 学 习 领 域 发 表 核 心 文章 的 研究 者 ， 详 见 附录 C。 

口 花 时 间 测 试 试用 版 软件 的 Mahout 用 户 , 他 们 寻找 与 解决 bug, 为 软件 打 补 丁力 至 提出 建议 。 

口 Mahout 提 交 者 ， 他 们 致力 于 Mahout 的 发 展 、 完 善 和 提升 。 

口 Manning 出 版 社 投 入 了 大 量 时 间 和 精力 将 本 书 出 版 并 投入 市 场 。 特 别 感谢 Katharine 
Osborne 、Karen Tegtmeyer、Jeff Bleiel、Andy Carroll、Melody Dolab 和 Dottie Marsico， 你 
看 到 的 最 终 稿 与 他 们 的 工作 密 不 可 分 。 

口 在 本 书写 作 过 程 中 提供 了 宝 贯 反馈 的 审 校 者 : Philipp K. Janert、Andrew Oswald、John 
Griffm、 Justin Tyler Wiley、 Deepak Vohra、 Grant Ingersoll 、Isabel Drost、 Kenneth DeLong、 


Eric Raymond、 David Grossman、Tom Morton， 以 及 Rick Wagner。 
口 Alex Ott 在 本 书 印刷 前 一 刻 对 全 稿 进行 了 细致 的 技术 审核 。 
D 在 作者 在 线 论坛 上 发 帖 评价 本 书 的 MEAP 读 者 ”。 
口 每 个 在 Mahout 邮 件 列 表 中 提问 的 人 。 
D 在 本 书 长 时 间 写 作 过 程 之 中 ， 给 予 我 们 无 尽 文 持 的 家 人 和 朋友 ! 


Q) MEAP， 全 称 Manning Early Access Program。 因 为 图 书 出 版 周期 较 长 ， 为 让 读者 可 以 时 刻 了 解 热 门 技 术 ，Manning 出 
版 社 推 出 了 这 一 图 书 抢 鲜 阅读 项 目 。 参 与 其 中 的 读者 可 以 在 图 书 未 编辑 完成 之 际 ， 一 半 一 草地 阅读 。 一 一 编者 注 


天 于 本 书 


你 可 能 还 有 疑问 : 这 本 书 是 否 适 合 我 ? 

如 果 你 正在 寻找 一 本 机 带 学 习 教 材 , 答案 是 否定 的 。 本 书 不 会 对 诸多 算法 和 技术 的 理论 以 及 
推导 过 程 给 出 全 面 解 释 。 如 果 你 了 解 机 天 学 习 技 术 ， 并 玖 悉 和 矩阵 和 回 量 等 相关 的 数学 概念 , 这 有 
助 于 阅读 本 书 ， 但 并 非 必要 条 件 。 

如 琳 你 正在 开发 先进 、 智 能 的 应 用 , 答案 则 是 肯定 的 。 本 书 从 实践 而 非 理 论 入 手 来 诠释 这 些 
拉 术 ,并 给 出 完整 的 例子 与 解决 方案 。 它 在 教授 用 Mahout 解 决 问题 的 同时 , 市 给 你 实践 者 的 经 验 
与 领悟 。 

如 朱 你 是 人 工 智能 、 机 融 学 习 及 相关 领域 的 研究 人 员 , 答案 亦 是 肯定 的 。 你 所 面 对 的 最 大 障 
碍 , 很 可 能 就 是 把 新 的 算法 应 用 到 实践 中 。 对 于 新 的 大 规模 算法 的 测试 与 部 著 ，Mahout 提 供 了 一 
个 成 熟 的 框架、 一 系列 模式 以 及 现成 的 组 件 。 本 书 是 你 在 复杂 的 分 布 式 计算 框 染 上 学 习 开 发 机 条 
学 习 系 统 的 “快车 票 ”。 

如 琳 你 正 领 导 一 个 产品 小 组 或 创业 团队 , 想 利用 机 各 学 习 创 造 一 种 元 争 优势 ,那么 本 书 同 样 
适合 你 。 通过 实际 示例 , 它 让 你 了 解 这 些 技术 的 多 种 应 用 方式 。 它 还 会 让 小 型 技术 团队 变 得 融 效 ， 
能 够 处 理 大 量 数 据 ， 而 这 在 以 前 只 有 其 有 大 量 技术 资源 的 组 织 机 构 才 做 得 到 。 


路 续 


本 书 分 为 三 部 分 ， 分 别 介 绍 了 Apache Mahout 中 的 协同 过 滤 、 聚 类 和 分 类 。 

首先 ， 第 1 章 整 体 介 绍 Apache Mahout。 这 一 章 为 你 阅读 后 续 各 章 芮 定 基 础 。 

第 一 部 分 (第 2 章 ~ 第 6 章 ) 由 Sean Owen 编写 ， 主 要 介绍 协同 过 滤 与 推荐 。 第 2 草 基 于 Mahonut 
构造 推荐 引擎 并 评估 其 性 能 。 第 3 曹 探讨 如 何 高 效 呈 现 推荐 引擎 使 用 的 数据 。 第 4 草 介 绍 可 在 
Mahout 中 利用 的 所 有 推荐 算法 ， 并 比较 它们 的 优 缺 点 。 在 此 背景 之 下 ， 第 $ 章 给 出 一 个 和 案例， 将 
第 4 章 介绍 的 推荐 系统 实现 应 用 在 该 案例 的 真实 问题 中 ， 配 以 某 些 特定 属性 的 数据 ， 从 而 建立 一 
个 可 为 生产 环境 所 用 的 推荐 引擎 。 第 6 章 介 绍 Apache Hadoop ， 通 过 人 赋 究 基 于 Hadoop 的 推荐 引擎 ， 
首次 为 你 展现 分 布 式 环境 中 的 机 带 学 习 算法 。 

第 二 部 分 (第 7 章 ~ 第 12 章 ) 探索 Apache Mahout 上 的 聚 类 算法 。 通 过 Robin Anil 所 做 的 技术 说 
明 , 你 可 以 把 看 起 来 类 似 的 数据 片段 组 织 为 一 个 个 集合 或 者 说 族 ( cluster )。 聚 类 有 助 于 揭示 大 规 
檬 数据 中 有 趣 的 信息 组 合 。 这 部 分 从 聚 类 中 的 简单 问题 开始 介绍 ， 并 给 出 了 Java 示 例 。 接 下 来 ， 


关于 本 书 
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初 识 Mahout 


本 章 内 容 

口 Apache Mahout 是 什么 ? 从 哪里 来 ? 

口 现实 中 的 推荐 引擎 、 聚 类 和 分 类 一 哆 
口 Mahout 安 装 


大 概 你 已 经 从 书 名 中 猜 到 了 ， 本 书 主 要 讲解 一 个 特殊 的 工具 一 一 Apache Mahout 
生活 中 的 高 效应 用 。 它 具备 三 个 明显 的 特征 。 

首先 ，Mahout 是 一 个 来 自 Apache 的 、 开 源 的 机 器 学 习 (machine learning ) 软件 库 。 它 所 实现 
的 算法 归属 于 机 器 学 习 或 集体 智慧 ( collective intelligence， 也 常常 译 为 群体 智慧 或 群体 智能 ) 这 
个 广阔 的 领域 , 这 意味 着 有 许多 事情 可 做 ,但 对 于 此 时 此 刻 的 Mahout, 它 主 要 关注 于 推荐 引擎 ( 协 
同 过 滤 )、 聚 类 和 分 类 。 

其 次 , Mahout 是 可 扩展 的 。 它 旨 在 当 所 处 理 的 数据 规模 远大 于 单机 处 理 能 力 时 成 为 一 种 可 选 
的 机 顺 学 习 工 具 。 在 当前 的 Mahout 系 统 中 ,这些 可 扩展 的 机 需 学 习 实 现 都 是 用 Java 来 写 的 ， 而 且 
有 些 部 分 是 建立 在 Apache 的 Hadoop 分 布 式 计 算 项 目 之 上 的 。 

最 后 ， 它 是 一 个 Java 软 件 库 ， 并 不 提供 用 户 接口 、 预 疹 服 务 硕 〈prepackaged server ) 或 安 疫 
程序 (installer )。 它 打算 为 开发 者 提供 一 个 可 用 可 改 的 工具 框架 。 

出 于 阶段 安排 的 需要 , 本 章 将 通过 一 些 句 见 的 真实 案例 简要 介绍 一 下 推荐 引擎 、 聚 类 和 分 类 
这 几 种 机 器 学 习 手 法 ， 而 Mahout 通 过 它们 帮助 你 处 理 数 据 。 

若 要 在 阅读 本 书 时 做 到 对 Mahout 随 学 随 用 ， 还 要 做 一 些 必要 的 系统 搭建 与 安装 工作 。 


1.1 Mahout 的 故事 


首先 来 了 解 Mahout 的 背景 知识 。 你 可 能 还 摘 不 清 Mahout 该 如 何 发 音 : 就 是 其 通 稍 的 英语 发 
痛 ( [ma'havt] )， 它 和 trout 押 前。 它 来 日 北 印度 语 ， 意 为 豫 象 人 ， 和 在 要 解释 它 ， 还 有 个 小 故事 。 

Mahout 是 2008 年 作为 Apache Lucene 的 子 项 目 出 现 的 。Lucene 项 目 推 出 了 一 个 同名 的 着 名 开 
源 搜索 引擎 ， 并 给 出 了 搜索 、 文 本 挖掘 (text mining ) 和 信息 检索 技术 的 先进 实现 方法 。 在 计算 
机 科学 领域 ， 这 些 术语 和 机 带 学 习 技 术 中 的 概念 很 相近 ， 比 如 聚 类 (clustering )， 并 在 某 种 程度 
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上 与 分 类 ( classification ) 相近 。 这 样 一 来 ， 某 些 Lucene 页 献 者 的 工作 更 多 沙 入 机 融 学 习 领 域 ， 
从 而 逐渐 脱离 出 来 形成 了 独立 的 子 项 目 。 之 后 不 久 ，Mahout 吸 纳 了 开源 的 协同 过 滤 项 目 Taste。 
«ON 图 1-1 给 出 了 Mahout 在 ASF ( Apache Software Foundation ，Apache 软 件 基 金 会 ) 中 的 部 分 传承 
No. 1 关系。 到 2010 年 4 月 ，Mahout 已 经 成 为 了 一 个 独立 的 项 级 Apache 项 目 ， 并 发 布 了 一 个 全 新 的 驱 象 
人 徽标 。 


图 1-1 Apache Mahout 及 其 在 ASF 中 的 相关 项 目 


Mahout 所 做 的 大 量 工作 不 仅 体现 在 以 高 效 和 可 扩展 的 方式 实现 这 些 经 典 算法 ,而 且 将 部 分 算 
法 进行 转换 使 其 可 以 在 Hadoop 上 处 理 大 规模 的 问题 。Hadoop 的 吉祥 物 是 一 头 象 ，Mahout 项 目的 
名 字 便 由 此 而 来 ! 

从 Mahout 镶 化 出 了 许多 技术 和 算法 ， 其 中 有 许多 仍 在 开发 或 实验 阶段 ( https://cwiki.apache. 
org/confluence/display/MAHOUT/Algorithms )。 在 该 项 目的 早期 ， 有 3 个 明确 的 核心 主题 : 推 存 引 
葡 (协同 过 滤 )、 聚 类 和 分 类 。 虽 然 它 们 绝 非 Mahout 的 全 部 ， 但 在 本 书写 作 时 ， 它 们 是 最 突出 和 
最 成 熟 的 主题 ， 也 因此 成 为 了 本 书 的 焦点 。 

也 许 你 在 阅读 本 书 时 已 经 了 解 了 这 三 种 技术 的 魅力 ， 但 为 了 不 漏 掉 什么 ， 请 继续 读 下 去 。 


1.2 ” ”Mahout 的 机 器 学 习 主 题 


虽然 Mahout 项 目 在 理论 上 可 以 实现 所 有 类 型 的 机 带 学 习 技 术 ,但 实际 上 当前 它 仅 关注 机 天 学 
习 的 三 个 主要 领域 ， 即 推荐 引擎 ( 协同 过 滤 入 聚 类 和 分 类 。 


1.2.1 推荐 引擎 


在 目前 采用 的 机 需 学 习 技 术 中 , 推荐 引擎 是 最 容易 一 眼 就 被 认 出 来 的 。 服 务 商 或 网 站 会 根据 
你 过 去 的 行为 向 你 推荐 书籍 、 电 影 或 文章 。 它 们 会 推测 你 的 品味 与 爱好 ,并 找到 某 些 你 可 能 感 兴 
趣 的 物品 。 
口 在 部 署 了 推荐 系统 的 电子 商务 网 站 中 ， 亚 马 逊 大 概 是 最 有 名 的 。 亚 马 逊 基于 交易 行为 和 
网 站 记录 为 你 推荐 你 可 能 感 兴趣 的 书籍 和 其 他 物品 ( 见 图 1-2 )。 
口 与 之 类 似 ，Netflix 为 用 户 推荐 其 可 能 感 兴趣 的 DVD ， 为 了 鼓励 研究 者 改善 其 推荐 质量 ， 
它 给 出 了 一 份 1 000 000 美 元 的 奖金 ， 这 使 它 颇具 盛名 。 
口 像 Libimseti 这 样 的 约会 网 站 ( 稍 后 讨论 ) 还 能 把 一 个 人 推荐 给 男 一 个 人 。 
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口 而 Facebook 这 样 的 社交 网 络 则 利用 推 大 技术 为 你 找到 最 可 能 尚未 关联 的 朋友 。 

r 六 Hibernate Searchin Action | 
by Emmanuel Bernard (Dec 28, 2008) 
Average Customer Review : 倒 室 安室 人 写 [~v 
In Stock 


List Price: $49-99 
Price: $34.99 
37 Used & new from $25.51 


JIownit | |Not interested x|RRRRR Rate this item | 
Recommended because you rated Lucene in Action (In Action Serie 


图 1-2 ”亚马逊 的 推荐 绪 末 。 基 于 该 用 户 的 交易 历史 和 同类 顾客 的 一 些 行为 ， 亚 
马 逊 认为 该 用 户 会 对 这 个 推 存 结 果 感 兴趣 。 它 甚至 可 以 列 出 这 次 推 存 的 
部 分 依据 ， 即 该 用 户 已 购 或 喜欢 的 类 似 物 品 


正如 亚马逊 等 网 站 所 展现 的 , 推荐 系统 通过 提供 绝 佳 的 交叉 销售 机 会 , 从 而 产生 实在 的 商业 
价值 。 某 公司 的 报告 显示 ， 向 用 户 推荐 的 产品 能 够 使 销售 额 增长 8%~12%。” 


1.2.2 聚 类 


聚 类 (clustering ) 的 概念 没有 那么 浅显 吻 屏 , 但 它 也 是 在 同样 的 应 用 场景 下 出 现 的 。 顾 名 思 
义 ， 聚 类 技术 试图 将 大 量 的 事物 组 合 为 拥有 类 似 属 性 的 复 ( cluster ), 借以 在 一 些 规模 较 大 或 难于 
理解 的 数据 集 上 发 现 层次 结构 和 顺序 ， 以 揭示 一 些 有 用 的 模式 或 让 数据 集 更 易于 理解 。 
口 Google News 使 用 聚 类 技术 通过 标题 把 新 闻 文 章 进 行 分 组 ， 从 而 按照 逻辑 线索 来 显示 新 
闻 ， 而 非 给 出 所 有 文章 的 原始 列表 。 如 图 1-3 所 示 。 
口 出 于 类 似 的 原因 ， 像 Clusty 这 样 的 搜索 引擎 也 将 其 查询 结 玉 进行 分 组 。 
口 聚 类 技术 可 以 根据 如 收入 、 居 住地 和 购买 习惯 每 属性 ， 将 消 旨 者 分 为 许多 段 ( 艇 )。 


Obama to Name 'Smart Grid Projects 


Wall Street Journal - Rebecca Smith - 1 hour ago 


The Obama administration is expected Tuesday to name 100 
utility projects that will share $3.4 billion in federal stimulus 
funding to speed deployment of advanced technology designed 
to cut energy use and make the electric-power grid ... 

Cobb firm wins "smart-grid" grant Atlanta Journal Constitution 


Obama putting $3.4B toward a ‘smart' power grid The Associate | 
Baltimore Sun - Bloomberg - New York Times - Reuters | 


all 594 news articles » [Email this story 


图 1-3 ”Google News 分 组 出 的 一 段 新 闻 样 本 。 展 现 了 一 个 代表 性 事件 的 详细 厂 段 ， 
并 且 呈 现 了 该 主题 下 同一 个 集群 内 其 他 几 个 类 似 事件 的 链接 。 你 也 可 以 得 
到 在 该 主题 下 聚 类 在 一 起 的 所 有 事件 的 链接 


Q 实用 电子 商务 ,“10 Questions on Product Recommendations”( 产品 推荐 十 问 )，http://mng.bz/b6A5。 
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聚 关 可 以 帮 你 在 一 大 堆 东 西 中 找到 脉络 ， 甚 至 层次 天 系 ， 否则 理解 这 些 数 据 将 非 稼 困难 。 利 
用 这 种 技术 , 企业 可 以 发 现 用 户 中 潜在 的 群体 ， 可 以 合理 地 组 织 大 量 文档 , 还 可 以 根据 日 志 来 发 
现 用 户 使 用 网 站 的 常见 模式 。 


1.2.3 分 类 


分 类 技术 决定 了 一 个 事物 多 大 程度 上 从 属于 菏 些 类 别 或 类 型 , 或 者 多 大 程度 上 具有 或 不 具有 
东 些 属性 。 与 聚 类 一 样 , 分 类 也 无 处 不 在 , 但 是 更 多 隐 丑 于 各 后 。 通 第 这 些 系 统 会 考察 类 别 中 的 
大 量 实例 ， 来 学 习 推 导出 分 类 的 规则 。 这 种 通 沼 的 方法 有 许多 应 用 。 
口 雅虎 邮箱 基于 用 户 以 前 对 正常 或 垃圾 邮件 的 报告 ， 以 及 电子 邮件 目 匡 的 特征 ， 来 判别 到 
来 的 消息 是 否 为 垃圾 邮件 。 几 个 被 归 类 为 垃圾 邮件 的 消息 如 图 1-4 所 示 。 
口 谷歌 的 Picasa 和 其 他 照片 管理 应 用 可 以 判断 出 一 张 照片 中 是 否 包 含 了 人 脸 。 
口 OCR (Optical Character Recognition ， 光 学 字符 识别 ) 软件 将 一 个 个 小 块 中 的 扫描 文本 分 
类 成 不 同 的 字符 。 
口 据 称 iTunes 中 苹果 公司 的 Genius 特 性 使 用 分 类 来 处 理 歌 曲 ， 为 用 户 生 成 可 能 的 播放 列表 。 


人 rmiri 
0 Spam (49) Empty Hevnerco DishView Wed 10/28, 12:34 PM 
四 i Emopty 

on Customer Service FINAL NOTIFICATION:..Please r... Wed 10/28,4:53 AM 
Contacts Add MmddDdhbh From: MmddDdhb Read The File. Wed 10/28, 12:58 AM 


图 1-4 由 雅虎 邮件 检测 出 的 垃圾 消息 。 基 于 来 自用 户 的 垃圾 邮件 报告 ， 结 合 其 他 分 析 ， 
系统 就 能 习 得 一 些 通常 可 用 于 确定 垃圾 邮件 的 属性 。 例 如 ， 提 到 “Viagra” 的 消 
息 通 常 为 垃圾 邮件 ， 故 意 错 拼 为 “vlagra” 的 消息 也 一 样 。 这 些 词 项 (term ) “的 
出 现 就 是 垃圾 邮件 过 滤器 可 以 习 得 的 一 个 属性 


分 类 有 助 于 判断 一 个 新 的 输入 或 新 的 事物 是 否 与 以 前 观察 到 的 模式 相 匹 配 , 它 通 常 还 被 用 于 
常 的 行为 或 模式 , 来 检测 可 疑 的 网 络 活动 或 欺骗 行为 。 它 还 可 用 于 “察觉 ” 某 个 用 户 的 消 
存在 失望 或 满意 情绪 。 

如 果 输 入 数据 的 质量 好 , 这 些 技术 都 可 以 完美 地 处 理 大 量 数据 。 但 有 时 不 仅 需要 处 理 大 量 的 
输入 ,还 必须 快速 生成 结果 ,这 就 使 可 扩展 性 ( scalability ) 成 为 一 个 主要 问题 并 且 , 如 前 所 述 ， 
Mahout 存 在 的 一 个 重要 原因 是 能 够 为 这 些 技术 提供 实现 手段 ,从 而 使 之 器 上 扩展 到 人 处理 庞大 的 输 
人 数据 。 


1.3 利用 Mahout 和 Hadoop 处 理 大 规模 数据 
规模 问题 在 机 融 学 习 算 法 中 有 什么 现实 意义 ? 让 我 们 考虑 你 可 能 需要 部 署 Mahout 来 解决 的 


分 
迁 选 开 
昌 是 合 


JU 


JW 词 项 是 信息 检索 (information retrieval ) 领域 的 标准 术语 ， 意 指 用 于 表示 查询 或 文档 的 特征 ， 实 际 中 文本 常用 单词 
(word ) 来 表示 词 项 ， 但 是 词 项 不 一 定 就 是 单词 。 严 格 地 说 ， 词 项 、 词 条 (token ) 和 单词 都 不 完全 一 样 。 本 书 并 
没 严 格 区 分 。 译 者 注 
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几 个 问题 的 大 小 。 

据 粗 略 估计 , Picasa 三 年 前 就 拥有 了 5 亿 张 照片 。" 这 意味 着 每 天 有 百 万 级 的 新 照片 需要 处 理 。 
一 张 照片 的 分 析 本 映 不 是 一 个 大 问题 , 即使 重复 几 百 万 次 也 不 算 什么 。 但 是 在 学 习 阶 段 可 能 需要 
同时 获取 数 十 亿 张 照片 中 的 信息 ， 而 这 种 规模 的 计算 是 无 法 用 单机 实现 的 。 

据 报 道 ，Google News 每 天 都 会 处 理 大 约 3S0 万 篇 新 的 新 闻 文 章 。 虽 然 它 的 绝对 词 项 数量 看 似 
不 大 , 但 试想 一 下 , 为 了 及 时 提供 这 些 文章, 它们 连同 其 他 近期 的 文章 必须 在 几 分 钟 的 时 间 内 完 

Netflix 为 Netflix Prize 公 布 的 评分 数据 子 集中 包含 了 1 亿 个 评分 。 因 为 这 仅仅 是 针对 竞赛 而 公 
布 的 数据 ， 据 推测 Netflix 为 形成 推荐 结果 所 需 处 理 的 数据 总 量 与 之 相 比 还 要 大 出 许多 倍 。 

机 融 学 习 技 术 必 须 部 普 在 诸如 此 类 的 应 用 场景 中 , 通常 输入 数据 量 部 非 弟 庞大 ,以 至 于 无 法 
在 一 合计 算 机 上 完全 处 理 , 即使 这 台 计 算 机 非常 强大 。 如 末 没 有 Mahout 这 类 的 实现 手段 ,这 将 是 
一 项 无 法 完成 的 任务 。 这 就 是 Mahout 将 可 扩展 性 视 为 重 中 之 重 的 道理 , 以 及 本 书 将 焦点 放 在 有 效 
处 理 大 数据 集 上 的 原因 ， 这 一 点 与 其 他 书 有 所 不 同 。 

将 复杂 的 机 和 硕 学 习 技 术 应 用 于 解决 大 规模 的 问题 ， 目 前 仅 为 大 型 的 高 新 技术 公司 所 考 感 。 但 
是 ， 今 天 的 计算 能 力 与 以 往 相 比 ， 已 廉价 许多 ， 且 可 以 借助 于 Apache Hadoop 这 种 开源 框架 更 轻 
松 地 获取 。Mahout 通 过 提供 构筑 在 Hadoop 平 台 上 的 、 能 够 解决 大 规模 问题 的 高 质量 的 开源 实现 
以 期 完成 这 块 拼图 ， 并 可 为 所 有 技术 团体 所 用 。 

Mahout 中 的 有 些 部 分 利用 了 Hadoop， 其 中 包含 一 个 流行 的 MapReduce 分 布 式 计算 框架 。 
MapReduce 被 谷歌 在 公司 内 部 得 到 广泛 使 用 (http://labs.google.com/papers/mapreduce.html )， 而 
Hadoop 是 它 的 一 个 基于 Java 的 开源 实现 。MapReduce 是 一 个 编程 范式 ， 初 看 起 来 奇怪 ， 或 者 说 简 
单 得 让 人 很 难 相 信 其 强大 性 。MapReduce 范 式 适用 于 解决 输入 为 一 组 “ 键 - 值 对 ”的 问题 ，map 
函数 将 这 些 键 值 对 转换 为 另 一 组 中 间 键 值 对 ，reduce 函 数 按 某 种 方式 将 每 个 中 间 键 所 对 应 的 全 部 
值 进 行 合 并 ， 以 产生 输出 。 实 际 上 ， 许 多 问题 可 以 归结 为 MapReduce 问 题 ， 或 它们 的 级 联 。 这 个 
范式 还 相当 易于 并 行 化 : 所 有 处 理 都 是 独立 的 ， 因 此 可 以 分 布 到 许多 机 关上。 这 里 不 再 缆 述 
MapReduce， 建 议 读者 参考 一 些 人 门 教程 来 了 解 它 ， 如 Hadoop 所 提供 的 http:/hadoop.apache.org 
/mapreduce/docs/current/mapred tutorial.html。 

Hadoop 实 现 了 MapReduce 范 式 , 即便 MapReduce 听 上 去 如 此 简单 , 这 仍然 称 得 上 是 一 大 进步 。 
它 负责 管理 输入 数据 、 中 间 键 值 对 以 及 输出 数据 的 存储 ; 这 些 数 据 可 能 会 非常 庞大 ,并且 必须 可 
被 许多 工作 节点 访问 , 而 不 仅仅 存放 在 某 个 节点 上 。Hadoop 还 负责 工作 节点 之 间 的 数据 分 区 和 传 
输 ， 以 及 各 个 机 需 的 故障 监测 与 恢复 。 理 解 其 背后 的 工作 原理 , 可 以 帮 你 准备 好 应 对 使 用 Hadoop 
可 能 会 面 对 的 复杂 情况 。Hadoop 不 仅仅 是 一 个 可 在 工程 中 添加 的 库 。 它 有 几 个 组 件 ,， 每 个 都 市 有 
许多 库 , 还 有 ( 几 个 ) 独立 的 服务 进程 , 可 在 多 人 台 机 带 上 运行 。 基 于 Hadoop 的 操作 过 程 并 不 简单 ， 
但 是 投资 一 个 可 扩展 、 分 布 式 的 实现 , 可 以 在 以 后 获得 回报 : 你 的 数据 可 能 会 很 快 增长 到 很 大 的 


GD Google Blogoscoped, “Overall Number of Picasa Photos”( 2007 年 3 月 12 日 )， 参见 http://blogoscoped.comyarchive/ 
2007-03-12-n67.html。 
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规模 ， 而 这 种 可 扩展 的 实现 让 你 的 应 用 不 会 落伍 。 

在 第 6 草 ， 本 书 将 尝试 克服 这 种 复杂 性 ， 让 你 可 以 很 快 地 在 Hadoop 上 运行 程序 ， 之 后 你 可 以 
探索 或 研究 关于 集群 操作 和 框架 调 优 的 细 市 。 鉴于 这 种 逢 要 大 量 计 算 能 力 的 复 淋 框 染 正 变 得 越 来 
越 普 裔 ， 云 计算 提供 商 开 始 提 供 Hadoop 相 关 的 服务 就 不 足 为 奇 了 ,例如 ,亚马逊 提供 了 一 种 管理 
Hadoop 集 群 的 服务 Elastic MapReduce ( http://aws.amazon.com/elasticmapreduce/ )， 该 服务 提供 了 
强大 的 计算 能 力 , 并 使 我 们 可 通过 一 个 友好 的 接口 在 Hadoop 上 操作 和 监控 大 规模 作业 , 而 这 原本 
是 一 个 非常 复杂 的 任务 。 


1.4 安 才 Mahout 

之 后 的 章节 将 会 出 现 一 些 代码 , 你 需要 先 配 备 一 些 工 具 才能 随意 使 用 这 些 代码 。 我 们 假设 你 
对 Java 开 发 环境 已 经 很 熟悉 了 。 

Mahout 及 其 相关 框架 是 基于 Java 实 现 的 ， 因此 具有 平台 独立 性 ,你 能 够 在 任何 一 个 可 运行 较 
新 版 JVM 的 平台 上 使 用 它 。 不 过 , 我 们 有 时 仍然 需要 针对 平台 之 间 的 差异 性 给 出 示例 和 解释 。 特 
别 是 在 Windows shelL 上 ， 其 命令 行 命令 与 FreeBSD tcsh shell 的 不 同 。 我 们 会 使 用 bash 中 可 用 的 命 
令 和 语法 ， 它 是 大 多 数 类 Unix 平 台所 采用 的 shell。 默 认 情 况 下 ,， 大 多 数 Linux 发 布 包 、Mac OSX、 
许多 Unix 变 种 和 Cygwin ( Windows 上 一 种 流行 的 类 Unix 环 境 ) 都 使 用 它 。 打 算 使 用 Windows shell 
的 用 户 对 此 很 可 能 不 习惯 。 不 过 , 这 些 用 户 仍 可 以 简单 地 使 用 本 书 所 提供 的 代码 清单 ， 把 命令 翻 
译 为 在 bash shell 中 可 用 的 形式 。 


1.4.1 Java 和 IDE 


如 有 果 做 过 Java 开 发 ， 你 的 个 人 电脑 上 很 可 能 已 经 安装 卫 Java 环境。 注音 ，Mahout 需 要 Java 6 
的 文 持 。 如 采 你 不 确定 使 用 了 哪个 Java 版 本 ， 可 以 打开 一 个 终端 并 输入 java-version 查 看 。 如 
果 显 示 的 版 本 低 于 1.6， 你 仍 需要 安装 Java 6。 

Windows 和 Linux 用户 可 以 在 Oracle 找 到 Java 6 的 JVM ， 网 址 为 http://www.oracle.com/ 
technetwork/java/。 苹 果 为 Mac OS X10.5 和 10.6 提 供 了 Java 6 的 JVM。 在 MacOSX， 如 果 显 示 所 用 
版 本 不 是 Java 6， 可 以 在 /Applications/Utilities 文 件 夹 下 打开 Java Preferences 应 用 。 这 里 允许 你 将 
Java 6 设 为 默认 选项 。 

借助 IDE ( 集成 开发 环境 ), 大 多 数 人 可 以 轻松 地 编辑 、 编 译 和 运行 本 书 的 示例 ; 我 们 强烈 推 
存 你 使 用 IDE。Eclipse (http:/www.eclipse.org ) 是 最 流行 的 免费 Java IDE。 本 书 不 会 涉及 Eclipse 
的 安 疾 和 配置 ， 但 继续 阅读 本 书 之 前 ， 你 最 好 花 点 时 间 熟 悉 它 。NetBeans ( http://netbeans.org/ ) 
也 是 一 个 流行 的 免费 IDE。 为 一 个 强大 而 流行 的 IDE 是 IntelliJ IDEA ( http:/www.jetbrains.com/ 
idea/index.html )， 目 前 可 获得 免费 的 社区 版 本 。 

举 一 个 使 用 IDE 的 例子 ，IDEA 可 以 从 现 有 的 Maven 模 型 中 创建 一 个 新 的 项 目 ; 如 果 你 在 创建 
项 目 时 指定 了 Mahout 源 码 的 根 目录 , 它 会 将 整个 项 目 按 组 织 好 的 方式 进行 日 动 配置 和 展示 。 因 此 ， 
我 们 可 以 将 本 书 中 所 有 的 源 代码 放 人 examples/src/main/java/ 源 码 根 上 日 录 中 ,并 在 IDEA 中 一 键 式 运 
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行 一 一 依赖 天 系 和 编 详 的 细节 都 会 得 到 月 动 管 理 。 这 比 手动 编译 和 运行 代码 要 容易 得 多 。 


注意 ， 如 果 测 试 程序 使 用 输入 数据 中 的 一 个 文件 ， 它 通常 应 该 在 与 数据 文件 相同 的 目录 中 运行 。 
查看 你 所 用 IDE 的 手册 ， 了 解 如 何 为 每 个 示例 配置 一 个 工作 目录 。 


1.4.2 ”安装 Maven 


如 同 许多 Apache 的 项 目 一 样 ，Mahout 利 用 Maven ( http://maven.apache.org ) 来 构建 和 发 布 项 
目 。Maven 是 一 个 命令 行 工具 ,， 它 管理 依赖 关系 、 编 译 代 码 、 形 成 软件 包 、 生 成 文档 并 发 布 正 式 
版 本 。 虽然 它 表面 上 类 似 于 同样 流行 的 工具 Ant， 实际 却 并 不 与 之 相同 。Ant 是 一 个 灵活 的 低级 脚 
本 语言 ， 而 Maven 是 一 个 更 重视 依赖 关系 和 发 布 管理 的 高 级 工具 。 鉴 于 Mahout 使 用 了 Maven， 你 
最 好 把 它 安 疙 好 。 

Mac OS XX 的 用 户 会 很 高 兴 地 发 现 Maven 已 经 安装 好 了 。 如果 没 有 , 可 以 安 儿 苹果 的 Developer 
Tools。 在 命令 行 输入 mvn --vezrison。 如 果 你 成 功 地 看 到 版 本 辟 ， 且 版 本 大 于 或 等 于 2.2， 你 就 
可 以 使 用 它 了 。 和 否则 ， 你 需要 在 本 地 安装 Maven。 

用 户 硅 使 用 一 个 之 有 适当 包 管 理 系 统 的 Linux 发 行 版 ， 便 可 以 很 快 获得 一 个 Maven 的 当前 版 
本 ; 否则 就 需要 按照 标准 的 流程 进行 安装 , 即 下 载 一 个 二 进 制 发 行 版 , 在 一 个 类 似 /usr/local/maven 
的 公共 目录 中 解压 再 编辑 bash 的 配置 文件 ~/.bashrc 并 添加 一 行 ， 如 export PATH=/usr/local/ 
maven/bin:sPATH。 它 确保 你 随时 可 以 使 用 mvn 命 令 。 

如 果 你 正在 使 用 Eclipse 或 IntelliJ 这 样 的 IDE 环 境 , Maven 已 经 被 集成 在 其 中 了 。 参考 其 文档 可 
以 了 解 如 何 打 开 Maven 集 成 的 功能 。 这 会 大 大 简化 Mahout 在 IDE 中 的 使 用 ， 因 为 IDE 可 以 使 用 一 
个 项 日 中 的 Maven 配 置 文件 (pom.xml )， 来 即刻 配置 并 导入 这 个 项 日 。 


注意 对 于 Eclipse， 你 需要 安 准 m2eclipse 插 件 ( http://www.eclipse.org/m2e/ )。 对 于 NetBeans， 自 
6.7 版 之 后 就 已 经 支持 了 Maven; 而 对 于 以 前 的 版 本 ， 你 需要 额外 安装 一 个 插件 。 


1.4.3 ”安装 Mahout 


Mahout 仍 在 不 断 发 展 ， 本 书 使 用 的 是 Mahout 的 0.5 发 布 版 。 在 https://cwiki.apache.org/ 
confluence/display/MAHOUT/Downloads 上 可 以 找到 下 载 这 个 发 布 版 及 其 他 版 本 的 提示 ; 你 可 以 在 
计算 机 上 找 一 个 方便 的 地 方 将 源码 的 压缩 包 解压 。 

为 Mahout 的 变更 很 频繁 ,定期 会 加 入 bug 修 复 和 一 些 改 进 , 也 许 使 用 0.5 的 后 续 版 本 会 更 好 
(甚至 可 以 用 Subversion 上 仍 未 发 布 的 最 新 代码 ， 参 见 https:/cwiki.apache.org/confluence/ 
display/MAHOUT/Version+Control )。 后 续 的 发 布 包 可 以 同 后 彝 容 地 运行 本 书 所 提供 的 示例 。 

一 旦 你 获得 了 源码 ， 无 论 是 从 Subversion 还 是 从 发 布 包 获得 ， 都 可 以 在 IDE 中 为 Mahout 创 建 
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一 个 新 项 目 。IDE 各 不 相同 ， 参 考 其 文档 可 以 掌握 它们 在 创建 项 目 中 的 特殊 用 法 。 最 简单 的 办 法 
是 使 用 IDE 所 集成 的 Maven， 从 项 目 源 代码 根 目录 中 的 pom.xml 文 件 导入 Maven 项 日 。 

一 旦 完成 了 这 些 步 又 , 你 就 可 以 很 轻松 地 在 这 个 项 目 中 创建 一 个 新 的 源 代码 目录 , 用 来 存放 
后 续 昔 市 中 所 介绍 的 示例 代码 。 正 确 地 配置 这 个 项 目 , 以 便 可 以 顺利 地 编译 并 运行 这 些 代码 ， 这 
样 你 就 无 须 付 出 额外 的 努力 。 

这 些 示 例 的 源 代 码 可 以 从 Manning 的 网 站 ( http:/www.manning.com/MahoutinAction/ ) 或 
GitHub ( https://github.com/tdunning/MiA ) 上 获得 。 你 可 以 根据 源码 所 提供 的 指导 来 建立 你 的 工 
作 环 境 。 


1.4.4 ”安装 Hadoop 


你 需要 在 本 地 安装 一 个 Hadoop ， 来 完成 本 书 稍 后 所 涉及 的 操作 。 你 不 必用 一 个 集群 来 运行 
Hadoop。 安 疙 Hadoop 里 不 困难 , 但 却 有 些 烦 琐 。 这 里 并 不 重复 这 个 过 程 , 我 们 将 指导 你 从 Hadoop 
网 站 http:/hadoop.apache.org/common/releases.html 获 取 一 个 0.20.2 版 的 Hadoop 副 本 , 并 亲 照 单 三 点 
安装 文档 ( http://hadoop.apache.org/common/docs/current/single node setup.html ) 来 安装 一 个 伪 分 
布 模式 的 Hadoop。 


1.5 小结 


Mahout 来 日 Apache, 它 是 一 个 ”年轻 开源、 可 扩展 的 机 融 学 习 库 , 而 本 书 将 指引 你 在 Mahout 
上 使 用 机 各 学 习 技术 解决 实际 问题 。 特 别 地 ， 你 会 很 快 了 解 推 荐 引擎 、 聚 类 和 分 类 。 如 果 你 是 一 
个 束 知 机 涡 学 习 理 论 的 研究 者 ,正在 寻找 一 个 实用 的 how-to 指 南 ， 或 者 是 一 个 布 望 快速 竺 握 从 业 
者 宝贵 经 验 的 开发 者 ， 那 么 这 本 书 正 是 为 你 而 与 。 

这 些 技术 已 经 不 再 只 是 理论 。 我 们 已 经 知道 在 现实 世界 中 有 许多 广为人知 的 机 天 学 习 案 例 ， 
它们 采用 了 推荐 引擎 、 取 类 和 分 类 : 电子 商务 、 电 子 邮 件 、 视 频 网 站 、 照 片 网 站 以 及 更 多 。 这 些 
技术 已 经 被 用 于 解决 实际 问题 ， 甚 至 为 企业 创造 价值 一 一 现在 它们 都 可 以 借助 Mahout 来 实现 。 

我 们 已 经 发 现 这 些 技术 有 时 会 涉及 大 量 的 数据 一 一 可 扩展 性 是 这 个 领域 中 一 个 独特 而 永恒 
的 话题 .初步 审视 MapReduce 和 Hadoop ,我 们 了 解 到 它们 是 如 何 承 载 7 Mahout 所 提供 的 可 扩展 性 。 

因为 本 书 注重 实际 操作 ,所 以 我 们 让 你 一 上 来 就 准备 好 去 使 用 Mahout。 现在 , 你 应 该 已 经 安 
痰 了 Mahout 工 作 所 需 的 工具 ， 并 准备 开始 行动 了 。 因 为 本 书 划 在 实战 ， 让 我 们 现在 就 结束 开篇 ， 
来 看 看 Mahout 的 实际 代码 。 请 看 后 续篇 草 ! 


本 书 第 一 部 分 亢 盖 第 2 章 至 第 6 章 ， 探 讨 Apache Mahout 机 硕 学 习 实 现 的 三 大 支柱 之 一 : 协 
同 过 小 (collaborative filtering) 和 推荐 (recommendation) 。 通 过 这 些 技 术 ， 你 能 够 了 解 一 个 人 
的 品味 ， 并 目 动 找到 新 内 容 来 投 其 所 好 。 本 部 分 仍 为 后 续 草 贡 的 铺 热 ， 后 续 草 下 将 高 度 依赖 于 
Apache Hadoop 的 分 布 式 计算 框架 。 我 们 先 通 过 简单 的 Java 程 序 来 了 解 Apache Mahout 的 机 姆 学 
习 ， 有 再 使 用 Hadoop 来 实现 它 。 

第 2 章 介 绍 由 Mahout 实 现 的 推荐 引擎 (recommender engine) ， 并 在 一 个 可 运行 的 示例 中 
评价 性 能 。 第 3 革 讨 论 Mahout 中 推荐 程序 (recommender) 的 高 效 数据 表示 。 第 4 章 分 类 说 明 
Mahout 中 推荐 引擎 的 各 种 实现 及 其 不 同 的 属性 特征 。 

第 5 章 给 出 一 个 实例 ， 其 数据 来 自 一 个 约会 网 站 ， 由 此 讨论 如 何 采 用 Mahout 中 的 方法 来 
处 理 真 实数 据 ， 从 而 形成 一 个 可 供 生 产 环 境 使 用 的 推荐 程序 。 最 终 ， 第 6 章 会 初步 在 Apache 
Hadoop 上 使 用 Maphout， 以 实现 一 个 大 型 的 分 布 式 推荐 引擎 。 


推 存 系统 


本 章 内 容 

口 Mahout 中 的 推荐 系统 

口 推荐 系统 实战 初探 

口 评估 推荐 引擎 的 精度 和 质量 

口 评估 基于 实际 数据 集 GroupLens 的 推荐 程序 


我 们 每 天 都 对 事物 形成 观点 : 豆 欢 、 不 喜欢 ， 其 或 不 关心 。 这 都 是 无 意识 中 发 生 的 。 当 你 在 
广播 中 听 到 一 首 歌 时 , 你 可 能 因为 它 动听 而 注音 它 , 也 可 能 因为 它 难听 而 注意 它 ， 也 有 可 能 压根 
儿 就 没有 注意 到 它 。 同 样 的 情形 还 适用 于 IT 恤衫、 色拉 、 发 型 、 滑 雪 场 、 容 狐 和 电视 节目 。 

人 们 的 嗜好 各 异 ， 却 有 规律 可 循 。 人 们 倾向 于 喜欢 那些 与 其 爱好 相似 的 东西 。 由 于 Sean 喜 欢 
吃 火 腿 - 员 昔 -番茄 三 明治 ， 你 就 可 以 猜测 他 可 能 会 喜欢 总 会 三 明治 (club sandwich )， 因 为 它们 
基本 上 是 一 样 的 ， 只 是 后 者 使 用 了 火 鸡肉 。 而 且 ， 人 们 容易 爱 上 类 似 人 群 所 喜欢 的 东西 。 

这 些 模式 可 用 于 预测 人 们 的 好 了 恶 。 推 荐 就 是 通过 对 嗜好 的 这 些 模式 进行 预测 , 借以 发 现 你 尚 
未 知晓 ， 却 合乎 心音 的 新 事物 。 

在 更 深入 地 介绍 推荐 思想 之 后 , 本 章 将 帮助 你 体验 Mahout 的 一 段 代码 , 用 以 运行 一 个 简单 的 
推荐 引擎 并 了 解 其 执行 效果 ， 从 而 让 你 下 观感 受 一 下 Mahout 是 如 何 实 现 推荐 的 。 


2.1 ” 推 存 的 定义 


你 从 书架 上 拿 起 这 本 书 是 有 原因 的 。 也 许 它 恰好 放 在 对 你 有 用 的 其 他 书籍 的 笼 边 , 而 你 明白 
之 所 以 书店 会 把 它 放 在 那里 , 是 因为 喜欢 那些 书 的 人 很 可 能 也 会 喜欢 这 本 书 。 或 许 它 恰 好 放 在 你 
同事 的 书架 上 ， 而 你 们 在 机 天 学 习 方面 志趣 相投 ， 也 有 可 能 是 他 们 直接 回 你 推荐 了 本 书 。 

这 些 策 略 虽 然 各 不 相同 ， 但 在 发 掘 新 鲜 事 物 上 都 是 有 效 的 : 要 找到 你 可 能 喜欢 的 物品 ， 
你 可 以 观察 与 你 志趣 相投 的 人 喜欢 些 什 么 。 另 一 方面 ， 通 过 观察 其 他 人 的 明显 俩 好 ， 你 可 以 弄 
清楚 哪些 东西 和 你 已 然 喜 欢 的 物品 相似 。 实 际 上 ， 它 们 是 推荐 引 敬 算法 中 应 用 最 广 的 两 大 类 : 
基于 用 户 ( user-based ) 和 基于 物品 (item-based ) 的 推 在 程序 ， 它 们 均 在 Mahout 中 得 到 了 充分 
展现 。 
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严格 说 来 ， 上 述 场景 均 为 协同 过 滤 的 范例 一 一 仅仅 通过 了 解 用 户 与 物品 之 间 的 关系 进行 推 
存 。 这 些 技术 无 顷 了 解 物品 自身 的 属性 。 从 某 种 意义 上 讲 ， 这 是 一 个 优点 。 该 推荐 框架 并 不 关心 
物品 是 否 为 书籍 、 主 题 公 园 、 人 鲜花 或 其 他 人 ， 因 为 根本 不 会 导入 它们 的 属性 。 

其 他 一 些 方法 则 立足 于 物品 的 属性 , 通常 称 为 基于 内 容 ( content-based ) 的 推荐 技术 。 例 如 ， 
如 果 有 朋友 癌 你 推荐 本 书 ， 原 因 是 它 是 Manning 出 版 的 ， 而 且 他 也 喜欢 Manning 出 版 的 其 他 书 ， 
那么 这 个 朋友 所 做 的 就 是 类 似 于 基于 内 容 的 推荐 。 它 给 你 的 建议 是 基于 书 的 属性 ， 即 基于 “出 版 
商 ” 作 出 的 。 

基于 内 容 的 推荐 技术 没有 什么 问题 , 相反 , 它们 很 有 用 。 但 是 , 它们 必须 与 特定 领域 相 结合 ， 
而 难以 规整 为 一 个 框 染 。 为 了 构造 一 个 有 效 的 基于 内 容 的 图 书 推荐 程序 ， 人 们 不 得 不 确定 图 书 的 
哪 种 属性 ( 页 数 、 作 者 、 出 版 商 、 颜 色 、 字 体 ) 是 有 意义 的 ， 以 及 有 多 大 意义 。 这 些 知 识 无 法 转 
换 以 用 于 其 他 领域 ， 比 如 这 种 推荐 图 书 的 方法 对 于 推 厦 比 院 配料 写 无 用 人 处。 

因此 ，Mahout 对 基于 内 容 的 推荐 所 言 甚 少 。 这 些 思想 能 够 融和 人 并 构建 在 Mahout 之 上 ; 故而 ， 
Mahout 在 技术 上 可 称 为 一 种 协同 过 小 框架 。 第 5$ 草 会 给 出 一 个 示例 ， 指 导 你 为 约会 网 站 创建 一 个 
推荐 程序 。 

但 在 现 阶段 , 我 们 先生 成 一 些 人 简单 的 输入 并 据 此 找 出 推荐 结果 , 来 体验 一 下 Mahout 中 的 协同 
i 


2.2 运行 第 一 个 推 存 引擎 


Mahout 包 含 一 个 推荐 3 引 黎 ,其 中 有 几 种 类 型 实际 来 自 于 传统 的 基于 用 户 和 基于 物品 的 推荐 程 
序 。 它 也 包含 了 其 他 儿 种 算法 实现 ， 但 是 现在 我 们 先 看 一 个 简单 的 基于 用 户 的 推荐 程序 。 


2.2.1 创建 输入 


为 了 探究 Mahout 中 的 推荐 ， 最 好 从 一 个 简单 的 例子 开始 。 

推荐 程序 需要 有 输入 构成 推荐 的 基础 数据 。 在 Mahout 的 语言 中 ， 数 据 是 以 偏好 
( preference ) 的 形式 来 表达 的 。 因 为 最 津 见 的 推荐 引 敬 总 是 把 项 目 推 荐 给 用 户 ， 所 以 谈论 侯 好 最 
简便 的 方法 是 建立 从 用 户 到 物品 的 关联 ,尽管 如 前 所 述 , 这 些 用 户 和 物品 是 可 以 任意 指定 的 。 
个 仿 好 包含 一 个 用 户 D、 一 个 物品 有 D, 通 和 帝 还 有 一 个 表达 用 户 对 物品 的 偏爱 程度 的 数值 。 实 际 上 ， 
Mahout 中 的 ID 通常 也 为 数字 一 一 整数 。 偏 好 值 (preference value ) 可 任意 设 定 ， 只 需 保 证 更 大 的 
值 代表 更 强 的 正 癌 偏 好 。 例如 ， 这 些 值 可 能 按 从 1 到 5 来 定 级 ,其 中 1 表示 用 户 非 常 不 喜欢 该 物品 ， 
而 5 表示 物品 是 用 户 的 至 爱 。 

创建 一 个 包含 关于 用 户 数 据 的 文本 文件 , 巧妙 地 从 1 到 5 为 用 户 命 名 ， 从 101 到 107 为 他 们 喜 
欢 的 7 本 书 命名 。 在 现实 世界 ， 这 些 数据 可 能 是 来 自 某 公司 数据 库 的 顾客 ID 和 产品 ID; Mahonut 
并 不 要 求 用 户 和 物品 必须 按照 数字 命名 。 我 们 用 一 种 简单 的 以 逗号 分 隔 值 的 格式 把 这 些 数据 写 
和 人 文件。 

复制 下 面 的 示例 到 一 个 文件 中 并 将 之 存 为 intro.csv。 


大 
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代码 清单 2-1 
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ty 


推荐 程序 的 输入 文件 intro.csv 


用 户 1 对 物品 102 的 用 户 ID、 物 品 ID、 偏 好 值 
偏好 值 为 3.0 


一 番 人 研究 之 后 ， 倾 回 就 明显 了。 用 户 1 和 5 似乎 有 相似 的 襄 好 。 他 们 都 最 襄 欢 101 这 本 书 ， 其 
次 喜欢 102， 再 次 喜欢 103。 同 样 ， 对 于 用 户 1 和 4， 他 们 似乎 都 喜欢 101 和 103 (但 用 户 4 对 102 的 关 
系 不 明 )。 另 一 方面 ,用户 1 和 2 的 喜好 基本 上 是 对 立 的 : 用 户 1 喜欢 101， 而 用 户 2 对 其 不 感 兴 趣 ; 
用 户 1 喜 欢 103， 而 用 户 2 则 恰恰 相反 。 用 户 1 和 3 的 喜好 过 异 一 一 他 们 仅 同 时 喜欢 101。 图 2-1 显 示 
了 用 户 和 物品 之 间 正 面 和 负面 的 关系 。 


图 2-1 用 户 1 到 $ 和 物品 101 到 107 的 关系 。 虚 线 表示 看 似 负 面 的 关系 ， 即 用 
户 似 乎 不 太 喜 欢 这 个 物品 ， 但 也 表达 了 对 物品 的 态度 
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2.2.2 ”创建 一 个 推荐 程序 


那么 , 可 以 为 用 户 1 推荐 什么 书 呢 ? 不 是 101、102 和 103， 因 为 用 户 1 显然 已 经 知道 这 些 书 了 ， 
而 推荐 是 用 来 发 现 新 事物 的 。 直 观 上 看 ， 既 然 用 户 4 和 5 与 用 户 1 类 似 ， WA 
西 推 荐 给 用 户 1 是 个 好 主意 。 这 样 一 来 ， 可 能 的 推荐 结果 就 是 书 104、105 和 106。 总 体 上 看 ， 
似乎 最 有 可 能 ， 因 为 物品 104 对 应 的 偏好 值 是 4.5 和 4.0。 

现在 ， 运 行 如 下 代码 。 


代码 清单 2-2 一 个 简单 的 基于 用 户 的 Mahout 推 荐 程序 


class RecommenderIintro { 


public static void main(String[] args) throws Exception { 


DataModel model = 
人 < 一 装载 数据 文件 


UserSimilarity similarity = 

new PearsonCorrelationSimilarity (model):; 
UserNeighborhood neighborhood = 

new NearestNUserNeighborhood (2, similarity, model).;， 


Recommender recommender = new GenericUserBasedRecommender ( 
model, neighborhood, similarity); 
生成 推荐 引擎 
List<RecommendedItem> recommendations = 


recommender.recommend(1, 1).; | . 
为 用 户 1 推 荐 一 件 
recommendations) { 


for (RecommendedItem recommendation : 物品 
System.out.printlin (recommendation).; 


} 


} 
图 2-2 形 象 地 表示 了 这 些 基础 组 件 之 间 的 关系 。 并 非 所 有 基于 Mahout 的 推荐 程序 都 是 如 此 ， 
有 些 会 采用 不 同 的 组 件 、 不 同 的 天 系 。 但 这 个 例子 先 让 我 们 对 此 有 一 些 感 觉 。 


> 十 > DataModel 
| USErNeighborhood b 


图 2-2 Mahout 基 于 用 户 推 荐 程序 中 组 件 间 关系 的 简单 示意 图 


在 接 下 来 的 两 章 中 , 我 们 将 详细 地 逐一 讨论 这 些 组 件 , 但 现在 先 对 每 个 组 件 的 角色 做 一 个 概 
。DataModel 实 现存 储 并 为 计算 提供 其 所 需 的 所 有 偏好 、 用 户 和 物品 数据 。Usersimilarity 


应 用 ， 
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实现 给 出 两 个 用 户 之 间 的 相似 度 ， 可 从 多 种 可 能 度量 或 计算 中 选用 一 种 来 作为 依据 。 
UserNeighborhood 实 现 明 确 了 与 给 定 用 户 最 相似 的 一 组 用 户 。 最 后 ，Recommender 实 现 合并 
所 有 这 些 组 件 为 用 户 推荐 物品 。 


2.2.3 ”分析 输出 
当 运 行 代 码 清 单 2-2 中 的 代码 时 ， 你 的 终端 或 IDE (集成 开发 环境 ) 会 输出 如 下 结果 : 


RecommendedItem [item:104, value:4.257081] 

该 请 求 寻找 一 个 最 优 的 推荐 结果 , 并 最 终 找 到 了 一 个 。 推 荐 引擎 把 书 104 推 荐 给 用 户 1。 而 且 
推荐 引擎 之 所 以 这 样 做 ， 是 因为 它 估 计 出 用 户 1 对 书 104 的 偏好 值 约 为 4.3， 而 这 在 所 有 适合 推荐 
的 物品 中 是 最 高 的 。 

推荐 结果 还 不 错 。 没 有 出 现 书 107; 它 虽 然 也 在 可 被 推荐 之 列 ， 但 它 仪 和 一 个 嗜好 不 同 的 用 
户 相 关 。 推 荐 引擎 选择 104 而 没 选 106 也 是 合理 的 ， 因 为 能 看 到 104 的 总 体 评分 略 高 。 此 外 ， 输 出 
还 包含 了 一 个 合理 的 估计 ， 即 用 户 1 有 多 喜欢 物品 104 一 一 大 致 在 用 户 4 和 5 所 表达 的 俩 好 值 4.0 和 
4.5 之 间 。 

从 数据 中 不 能 一 眼看 出 正确 答案 ,但 是 推荐 引擎 找到 了 它 的 踩 迹 , 并 返回 了 一 个 合理 的 答案 。 
这 个 简单 的 程序 找到 了 一 个 不 易 发 现 的 有 用 结果 , 如 果 你 为 此 感到 欢欣 救 舞 , 那 就 表示 机 天 学 习 
的 世界 很 适合 你 。 

对 于 干净 的 小 数据 集 , 生成 推荐 结果 就 像 前 面 的 示例 一 样 简单 。 但 现实 中 ,数据 集 往往 非常 
庞大 ， 而 有 旦 其 中 很 多 信息 没有 价值 。 例 如 ， 假 设 一 个 受 欢迎 的 新 闻 网 站 要 为 读者 推荐 新 闻 文 章 。 
可 以 根据 文章 点 击 率 推 靳 出 偏好 , 但 也 可 能 会 产生 很 多 假 的 偏好 一 一 或 许 读者 点 击 了 并 不 喜欢 的 
文章 , 或 错误 地 点 击 了 一 个 故事 。 或许 很 多 点 击发 生 在 未 登录 状态 下， 因而 不 能 与 某 个 用 户 进行 
对 应 。 再 试想 一 下 数据 集 的 大 小 一 一 也 许 每 个 月 的 点 击 量 有 儿 十 亿 次 。 

要 在 该 数据 之 上 快速 生成 准确 的 推荐 结果 并 不 简单 。 后 面 的 案例 研究 中 , 我 们 将 使 用 Mahout 
提供 的 工具 来 解决 一 组 这 样 的 问题 。 它 们 会 为 你 呈现 标准 的 方法 会 如 何 导 致 糟糕 的 推荐 结 末 , 或 
是 耗费 大 量 的 内 存 和 CPU 时 间 ， 同 时 展示 如 何 配置 和 定制 Mahout 来 提高 性 能 。 


2.3 评 人 一 个 推荐 程序 


推 存 引擎 是 一 种 工具 ， 一 种 解答 问题 的 手段 。 什么 是 对 用 户 最 好 的 推荐 ” ”在 探寻 其 答案 
之 前 , 最 好 先 深 究 一 下 这 个 问题 。 好 的 推荐 需要 多 准确 ?用 户 如 何 获 知 推荐 程序 正在 输出 最 佳 结 
末 ? 本 章 后 续 部 分 将 转 而 探讨 如 何 评 估 一 个 推荐 程序 ， 因 为 这 会 有 助 于 审视 特定 的 推 存 系 统 。 

最 佳 的 推荐 程序 应 该 就 像 是 一 个 “巫师 ”， 它 能 够 在 你 行动 之 前 设法 准确 地 获知 你 喜欢 的 每 
一 种 可 能 的 物品 , 而 且 这 些 物品 是 你 尚未 见 过 或 没有 对 其 表达 过 任何 喜好 意见 的 。 能 够 准确 预测 
你 所 有 豆 好 和 行为 的 推荐 程序 还 应 按 你 未 来 的 豆 好 把 物品 进行 排队 。 最 优 的 次 在 推荐 结 朱 应 该 就 


是 这 样 。 


2.3 评估 一 个 推荐 程序 1> 


而 实际 上 , 大 多 数 推 存 引擎 仅 会 试图 给 出 茶 些 或 其 他 所 有 物品 的 佑 计 评 分 。 由 此 ,一 种 评 舍 
推荐 程序 推荐 结果 的 方法 是 评估 其 估计 偏好 值 的 质量 一 一 即 评估 所 估计 的 偏好 在 多 大 程度 上 与 
实际 仿 好 相 匹 配 。 


2.3.1 训练 数据 与 评分 


但 是 , 没有 现成 的 实际 偏好 值 可 用 。 没 有 人 能 确切 地 知道 你 将 来 有 多 喜欢 某 些 新 东西 ( 包括 
你 在 内 )。 在 推荐 引擎 中 ， 这 可 以 通过 提取 一 小 段 真 实数 据 作为 测试 数据 来 仿真 。 这 些 用 于 测试 
的 偏好 不 会 作为 训练 数据 导入 到 被 评 信 的 推荐 引擎 。 相反, 推 存 程序 需要 为 这 些 缺 失 的 测试 数据 
估计 出 偏好 值 ， 然 后 估计 结果 用 于 与 真实 值 进行 对 照 。 

进而 , 我 们 可 以 非常 简单 地 为 推荐 程序 做 一 种 评分 。 例 如 ,可 以 计算 出 在 估计 和 实际 仿 好 之 
间 的 平均 差 值 。 在 这 种 评分 中 , 值 越 低 越 好 , 因为 值 越 低 意味 着 估计 值 与 实际 仿 好 值 的 差别 越 小 。 
评分 为 0.0 意 味 着 完美 的 估计 ， 即 在 估计 值 和 实际 侦 好 值 之 间 根 本 没有 差别 。 

有 时 会 使 用 差 值 的 均 方 根 : 计算 出 实际 偏好 值 和 估计 值 之 间 的 差 值 之 后 , 先进 行 平方 再 求 其 
均值 的 平方 根 。 见 表 2-1。 值 同样 是 越 低 越 好 。 


表 2-1 平均 差 值 与 均 方 根 的 计算 说 明 


物品 1 物品 2 物品 3 
真实 值 3.0 5.0 4.0 
估计 值 3.5 2.0 5.0 
差 值 0.5 3.0 1.0 
平均 差 值 =(0.5+3.0+1.0)/3=1.5 
均 方 根 = (C0.5? +3.0° +1.0°)/3) =1.8484 


表 2-1 显 示 了 一 组 实际 偏好 和 估计 之 间 的 差 值 ， 以 及 如 何 将 它们 转换 为 评分 。 均 方 根 使 得 估 
计 值 的 仿 离 显得 更 严重 ,正如 这 里 的 物品 2， 这 在 有 时 是 知 要 的 。 例 如 ， 相 比 于 偏离 1 颗 星 的 估计 
值 , 偏离 2 颗 星 对 推荐 所 造成 的 不 恨 影响 也 许 会 超过 2 倍 。 鉴 于 简单 地 对 差 值 求 平均 可 能 更 朋 观 和 
易于 理解 ， 后 续 的 例子 中 都 会 采用 这 种 方法 。 


2.3.2 ”运行 RecommenderEvaluator 
让 我 们 重 温 示例 程序 ， 在 简单 的 数据 集 上 评估 这 个 简易 的 推荐 程序 ， 如 下 列 代 码 清单 所 示 。 
代码 清单 2-3 ”配置 并 评估 一 个 推荐 程序 


RandomUtils.useTestSeed!(); 
DataModel] model = new FileDataModel (new Filel("intro.csv")),; i 


RecommenderEvaluator evaluator = 
new AverageAbsoluteDifferenceRecommenderEvaluator (); 
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RecommenderBuilder builder = new RecommenderBuilder!() ({ a 
@Override 构建 如 代码 清单 2-2 所 
public Recommender buildRecommender (DataModel model) 示 的 推荐 程序 


throws TasteException 1{ 
UserSimilarity similarity = new PearsonCorrelationSimilarity (model):; 
UserNeighborhood neighborhood = 

new NearestNUserNeighborhood (2, similarity, model)}):; 


return 
new GenericUserBasedRecommender {model, neighborhood, similarity):; 
} 
}; 


double Score = evaluator.evaluatet 训练 70% 的 数据 ， 测 试 30% 
builder, null, model, 0.7, 1.0}): 


System.out .println({score); 

大 多 数 行为 发 生 在 evaluate() 中 : RecommenderEvaluator 将 数据 分 为 训练 集 和 测试 集 ， 
构建 一 个 新 训练 的 DataModel 与 Recommender 用 于 测试 ， 并 将 估计 的 偏好 值 与 实际 测试 数据 进 
行 比较 。 

注意 传递 给 evaluate () 的 参数 中 没有 Recommender。 这 是 因为 在 该 方法 中 ，Recommender 是 
由 新 训练 的 DataModel 来 构建 的 。 该 方法 的 调用 者 必须 提供 一 个 对 象 一 一 RecommenderBuilder， 
可 以 使 用 DataModel 构 建 出 Recommender。 这 里 , 该 方法 所 用 的 是 和 本 章 之 前 所 述 相 同 的 实现 。 


2.3.3 ”评估 结果 


代码 清单 2-3 中 的 程序 输出 评价 的 结果 : 一 个 显示 Recommender 表 现 如 何 的 分 数 。 在 这 个 例 
子 中 ,你 只 会 看 到 1 .0 这 一 个 值 。 即 使 evaluator 在 选择 测试 数据 时 引入 许多 随机 量 ,， 结果 仍 是 
相同 的 ， 因 为 对 RandomUtils.useTestSeed() 的 调用 会 强制 每 次 选择 相同 的 随机 值 。 这 仅仅 
是 为 了 获得 可 重复 的 结果 ， 而 被 用 在 这 样 的 示例 或 单元 测试 中 。 请 不 要 在 实际 代码 中 这 样 用 |! 

这 个 分 值 的 意义 取决 于 所 采取 的 ] 实现 方法 这 里 是 AverageAbsoluteDifference- 
RecommenderEvaluator。 在 该 实现 中 分 值 为 1.0， 这 意味 着 平均 而 言 推 荐 程序 所 给 出 的 估计 值 
与 实际 值 的 俩 差 为 1.0。 

在 从 1 至 5 的 区 间 中 ，1.0 这 个 值 并 不 大 ， 但 我 们 这 里 只 采用 了 非常 少 的 数据 。 你 来 执行 时 所 
获得 的 结 采 也 许 会 不 同 , 因为 对 数据 集 的 分 斤 是 随机 的 ， 而 且 程序 每 次 运行 所 用 的 训练 集 和 测试 
集 也 可 能 不 一 样 。 

这 个 技术 可 以 应 用 于 任何 Recommender 和 DataModel。 如 要 使 用 均 方 根来 评分 ， 可 以 用 
RMSRecommenderEvaluator 有 取代 AverageAbsoluteDi fferenceRecommenderEvaluator。 

你 可 以 选择 不 同 evalLuate ( ) 传递 null ( 空 ) 参数 ， 而 是 传递 DataModelBuilder 的 一 个 实 
例 ( instance ), 它 可 以 用 于 控制 如 何 从 训练 数据 中 生成 DataModel。 通 滑 默认 地 传 空 参数 就 够 了 ， 
除非 你 使 用 了 一 个 特殊 的 DataModel 实 现 个 你 希望 插入 到 评估 过 程 中 的 DataModelBuilger。 

最 后 传递 给 evaluate () 的 参数 1.0 是 用 来 控制 总 共 使 用 多 少 输入 数据 的 。 这 里 ， 它 是 指 
100% 的 数据 。 这 个 参数 可 用 于 仪 通过 庞大 数据 集中 的 很 小 一 部 分 数据 ， 来 生成 一 个 精度 较 低 但 
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更 快 的 评估 。 例 如 ，0.1 代 表 使 用 10% 的 数据 ， 而 90% 的 数据 被 忽略 。 当 你 希望 快速 测试 
Recommender 中 一 些小 的 更 改 时 ， 这 个 参数 会 很 有 用 。 


2.4 ”评估 查 准 率 与 查 全 率 


我 们 还 应 该 更 全 面 地 看 竺 推荐 问题 : 通过 估计 偏好 值 来 生成 推荐 结果 并 非 绝 对 必要 。 给 出 一 
个 从 优 到 劣 排 列 的 推荐 列 表 对 于 许多 场景 都 够 用 了 ， 而 不 必 包 含 佑 计 的 偏好 值 。 事实 上 ,有 时 精 
确 的 列表 顺序 也 不 那么 重要 一 一 有 几 个 好 的 推荐 结果 就 可 以 了 。 

从 这 种 更 普 裔 的 视角 ， 我 们 还 可 以 运用 经 典 的 信息 检索 ( information retrieval ) 度量 标准 来 
评估 推荐 程序 . 查 准 率 ( precision ) 和 查 全 率 (recall )。 这 些 术语 通常 用 在 像 搜索 引擎 这 样 的 系 
统 中 ， 即 从 许多 可 能 的 搜索 结果 中 返回 一 组 最 佳 结 果 。 

搜索 引擎 应 避免 在 top 结 果 中 返回 无 关 信 息 , 而 应 竭力 返回 尽 可 能 相关 的 结果 。, 在 一 些 对 “ 相 
关 ” 的 定义 中 ， 查 准 率 是 指 在 top 结 果 中 相关 结果 的 比例 。“Precision at 10”( 推荐 10 个 结果 时 的 
查 准 率 ) 是 指 这 个 比例 来 自 对 前 10 个 top 结 果 的 判定 。 查 全 率 是 指 所 有 相关 结果 包含 在 top 结 果 中 
的 比例 。 图 2-3 给 出 了 它们 的 图 示 。 


所 有 可 能 的 文档 


图 2-3 ”在 搜索 结果 中 查 准 率 和 查 全 这 的 说 明 


这 些 术语 很 容易 用 在 推荐 程序 中 ， 查 准 率 是 top 推 荐 中 间 有 “好 ”结果 的 比例 ， 而 查 全 率 是 
“好 ” 结 末 出 现在 top 推 荐 中 的 比例 。 下 一 市 将 定义 何 为 “好 ”。 


2.4.1 运行 RecommenderIRStatsEvaluator 


Mahout 同 样 提供 了 一 个 相当 人 简单 的 方法 ， 为 Recommendqer 计 算出 这 些 值 ， 如 下 面 的 代码 清 
I 
代码 清单 2.4” 碍 准 率 和 碍 全 率 评估 的 配置 与 运行 


RandomUtils.useTestSeed!{).: 
DataModel model = new FileDataModel (new File!("™intro.csv"}))}):;: 


RecommenderIRStatsEvaluator evaluator = 
new CenericRecommenderIiRStatsEvaluator {(): 
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RecommenderBuilder recommenderBRuilder = new RecommenderBuilder{(}) 1 
@Override 
public Recommender buildRecommender (DataModel model) 
throws TasteException { 
UserSimilarity similarity = new PearsonCorrelationSimilarity (model); 
UserNeighborhood neighborhood = 
new NearestNUserNeighborhood (2, similarity, model).; 
return 
new GenericUserBasedRecommender (model, neighborhood, similarity).; 


} 
小 


IRStatistics stats = evaluator.evaluatel 
recommenderBuilder, null, model, null, 2, 
GenericRecommenderIRStatsEvaluator.CHOOSE THRESHOLD, 评估 推荐 2 个 结果 时 的 
1.0); 查 准 率 和 查 全 率 


System.out.println{stats.getPrecision{())}),; 
System.out.println{tstats.getRecall()).;: 


如 果 不 调 用 RandomUtils .useTestSeed()， 你 会 看 到 完全 不 同 的 结果 ， 因 为 训练 数据 和 测 
试 数据 是 随机 选择 的 ， 而 且 这 里 选用 的 数据 集 也 非常 小 。 但 是 加 入 这 个 调用 之 后 ， 结 果 就 应 该 为 : 

0.75 

1.0 


“Precision at 2”( 推荐 2 个 结果 时 的 查 准 率 ) 为 0.75; 平均 有 3/4 的 推荐 结果 是 好 的 。“Recall at 2” 
(推荐 2 个 结果 时 的 查 全 率 ) 为 1.0; 所 有 好 的 推荐 都 包含 在 这 些 推荐 结果 中 。?” 

但 是 , 到 底 什 么 才 是 好 的 推荐 呢 ?” 框 架 要 人 负责 作出 决定 , 而 没有 人 给 它 一 个 定义 。 直 观 上 看 ， 
在 测试 集中 最 受 欢 迎 的 物品 为 好 的 推荐 ， 其 他 则 不 是 。 
代码 清单 2-5 ”在 测试 数据 集中 用 户 5 的 偏好 值 

ee 
,0 
,104, 


:1905, 
:1906, 


重新 看 一 下 该 样本 数据 集中 的 用 户 5。 我 们 把 物品 101、102 和 103 的 偏好 值 分 离 出 来 作为 测试 
数据 。 它 们 的 偏好 值 分 别 为 4.0、3.0 和 2.0。 当 这 些 值 不 在 训练 数据 集中 时 ， 推 荐 3 引 敬 应 该 先 推 荐 
101， 再 是 102， 最 后 是 103， 因 为 这 是 用 户 5 对 这 些 物 品 的 偏好 顺序 。 但 是 推荐 103 会 不 会 是 个 好 
主意 呢 ?” 它 位 于 列表 的 末尾 ， 用 户 5 不 会 很 喜欢 它 。 而 用 户 5 对 书 102 的 喜好 也 只 是 一 般 而 已 。 书 
101 看 起 来 不 错 ， 因 为 它 的 偏好 值 远 远 超过 平均 值 。 或 许 101 是 一 个 好 的 推荐 ，102 和 103 也 不 错 ， 
但 算 不 上 是 好 的 推荐 。 

但 这 是 RecommenaderEvaluator 的 思维 方式 。 当 没有 明确 的 赋值 可 将 推荐 分 出 好 坏 时 ， 框 
架 会 为 每 个 用 户 取 一 个 阅 值 ， 它 等 于 该 用 户 的 平均 偏好 值 wv， 加 上 一 个 标准 方差 s: ” 


nn Un On OOI 
必 和 fo au 恬 
CC CD DO oO 


Gd 查 准 率 和 查 全 率 均 为 对 所 有 用 户 的 推荐 分 别 评估 后 取 的 平均 值 。 一 一 译 者 注 
@) 注意 这 里 讨论 的 是 RecommenderIRStatsEvaluator 中 国 值 的 设 定 ，RecommenderEvalLluator 直 接 将 估计 值 与 


实际 值 相 比 较 ， 故 不 需 使 用 国 值 。 一 一 详 者 注 


EW) 


No.2 
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国 什 =A+c 
即使 你 已 经 忘记 了 统计 数据 , 也 没关系 。 确 定 国 值 所 用 的 物品 偏好 值 不 是 略 高 于 平均 值 (A )， 
而 是 比 平 均值 高 出 很 多 (o )。 在 现实 场景 下 ， 这 意味 独 大 约 有 16% 的 物品 最 受 欢 迎 ， 它 们 可 以 被 
视 为 好 的 推荐 并 反 锯 给 用 户 。 该 方法 所 用 的 其 他 参数 和 以 前 类 似 ， 它 们 在 项 目的 Javadoc 中 有 完 
整 的 文档 说 明 。 


2.4.2” 查 准 率 和 查 全 率 的 问题 


在 推荐 程 序 中 , 查 准 率 和 查 全 率 测试 的 有 效 性 完全 依赖 于 怎样 定义 “好 的 推荐 ”。 在 前 一 下 中 ， 
病 值 要 么 是 特别 指定 的 ， 要么 是 由 框 染 定义 的 。 浆 值 选择 不 当 会 损害 到 对 推荐 结果 评分 的 有 效 性 。 

但 是 ,这些 测 试 还 有 一 个 更 细节 的 问题 。 这 里 ,它们 必然 是 从 那些 用 户 已 经 表达 过 一 些 偏好 
的 物品 中 挑选 一 组 好 的 推荐 结果 。 但 是 ， 最 好 的 推荐 结果 并 不 一 定 在 那些 用 户 已 知 的 物品 中 ! 

试想 为 一 个 用 户 运行 这 个 测试 , 这 个 用 户 肯定 喜欢 小 众 的 法 国 非 主流 电影 WA Brother the Armoire。 
平 心 而 论 ， 这 是 给 用 户 的 一 个 非常 棒 的 推荐 ， 但 这 个 用 户 从 来 没有 上 听 说 过 这 部 电影 。 假 如 推荐 程序 
推荐 这 部 电影 ， 会 被 认 为 是 推荐 错误 ; 测试 框架 仪 会 从 用 户 已 有 的 仿 好 集合 中 选择 好 的 推荐 。 

如 有 果 仿 好 是 布尔 型 ,不 包含 偏好 值 ， 那么 事情 就 更 复杂 了。 这 时 ,其 至 没有 相对 偏好 的 概念 
可 用 于 选 出 包含 好 物品 的 数据 子 集 。 该 测试 可 做 的 最 好 选择 就 是 随机 选择 一 些 受 欢迎 的 物品 作为 
好 的 推荐 。 

这 个 测试 仍然 有 些 用 处 。 用 户 伍 好 的 物品 可 以 很 好 地 代表 对 用 户 的 最 佳 推 荐 , 不 过 它们 绝 非 
完美 的 选择 。 在 布尔 型 偏好 数据 的 案例 中 ， 只 能 做 查 准 - 查 全 测试 ( precision-recall test )。 理 解 这 
个 测试 在 该 场景 下 的 局 限 是 必要 的 。 


2.5 评估 GroupLens 数据 集 


有 这 些 工具 在 手 , 我 们 不 仅 可 以 评 佑 推荐 引擎 的 速度 ,还 可 以 评估 其 质量 。 虽 然 几 章 之 后 才 
会 讨论 有 关 大 规模 真实 数据 的 示例 ， 但 现在 我 们 已 经 可 以 快速 评估 一 个 小 数据 集 的 性 能 


2.5.1 提取 推荐 程序 的 输入 


GroupLens (http:/grouplens.org/ ) 是 一 个 人 研究 项 目 ， 提 供 多 个 大 小 不 同 的 数据 集 ， 每 个 都 来 
目 真实 用 户 对 电影 的 评分 。 它 是 几 个 可 用 的 大 规模 真实 数据 集中 的 一 个 , 本 书 稍 后 还 会 为 你 介绍 
更 多 的 数据 集 。 

在 GroupLens 网 站 上 ， 找 到 并 下 载 “100K data set”， 当 前 其 地 址 为 http://www.grouplens.org/ 
node/73。 将 下 载 的 文件 解压 ， 在 其 中 找到 名 为 ua.base 的 文件 。 这 是 一 个 以 制 表 符 〈tab ) 分 隔 的 
文件 ,包含 用 户 ID 、 物 品 ID 、 评 分 〈 人 往 好 值 )， 以 及 一 些 附加 信息 。 

这 个 文件 的 字段 用 制 表 符 分 隔 ， 而 不 是 逗号 ， 结 尾 还 包含 一 个 额外 的 信息 字段 。 它 可 用 吗 ? 
是 的 ， 这 个 文件 可 用 于 FileDataModel。 回 到 代码 清单 2-3 的 代码 ， 创 建 一 个 Recommender- 
Evaluator， 然 后 把 ua.base 的 位 置 传递 给 它 ， 而 不 再 是 传递 一 个 小 数据 文件 。 再 次 运行 。 这 次 ， 
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评估 会 花 上 几 分 钟 ， 因 为 现在 是 基于 100 000 个 偏好 值 ， 而 不 是 少数 几 个 。 

最 终 ， 你 会 得 到 一 个 大 约 为 0.9 的 值 。 这 不 算 坏 , 但 放 在 1 到 5 的 区 间 内 ， 这 个 值 偏离 了 将 近 1 
个 点 ， 看 起 来 不 算 太 好 。 对 这 类 数据 ， 也 许 我 们 正在 使 用 的 这 个 特定 的 Recommender 实 现 并 不 
是 最 优 的 ? 


2.5.2 ”体验 其 他 推荐 程序 


让 我 们 试 着 在 这 个 数据 集 上 运行 一 个 slope-one 推 荐 程序 ， 这 是 一 个 还 会 在 第 4 章 中 出 现 的 简 
单 算 法 。 如 下 所 示 ， 用 org.apache.mahout.cf.taste.impl.recommender.slopeone. 
SlopeOne-Recommender 替 代 RecommenderBui 1dqer 即 可 。 


代码 清单 2-6 ”改变 评估 程序 后 运行 SlopeOneRecommender 


RecommenderBuilder recommenderBuilder = new RecommenderBuilder!{() { 
GOverride 
public Recommender puildRecommender (DataModel model) 
throws TasteException 1 
return new SlopeOneRecommender (model). 
} 
}}; 


再 次 运行 该 评 佑 。 你 会 发 现 它 快 了 很 多 ， 而 且 生 成 的 评 佑 绪 朱 大 约 为 0.748。 正 在 回 正 确 的 
方 问 前 进 。 

这 并 不 旦 说 slope-one 总 是 更 好 或 更 快 。 每 个 算法 痢 有 其 特征 与 属性 , 无 法 预知 它们 在 给 定数 
据 集 上 的 行为 。 例 如 ， 里 然 slope-one 在 运行 时 会 很 快 算出 推荐 结果 , 但 在 运行 之 前 却 需 要 大 量 的 
时 间 来 预 乞 算出 其 内 在 的 数据 结构 。 因 此 , 我 们 最 初 介绍 的 基于 用 户 的 推荐 程序 也 许 在 其 他 数据 
集 上 会 更 快 和 更 准确 。 第 4 章 会 探讨 每 种 算法 的 相对 优势 。 

这 种 区 别 朝 显 了 在 真实 数据 上 做 测试 与 评 佑 的 重要 性 ,以 及 使 用 Mahout 如 何 相 对 消除 了 一 些 
腑 烦 。 


2.6 小结 


本 章 中 ， 我 们 介绍 了 推荐 引 苟 的 思想 。 我 们 选用 一 个 人 简单 的 Mahout Recommender， 为 之 创 
建 了 一 些小 规模 的 输入 数据 、 运 行 了 一 个 简单 计算 ， 并 解释 了 其 结果 。 

接着 我 们 评估 了 推荐 引 敬 输出 结果 的 质量 , 这 是 在 后 续 草 下 中 需 要 经 稼 使 用 的 。 本 和 草 亢 半 对 
Recommender 所 售 计 偏好 的 精度 评 舍 ， 以 及 传统 的 查 准 率 和 查 全 率 度 量 标准 在 推荐 中 的 应 用 。 
最 终 ， 我 们 答 试 评 佑 一 个 来 目 GroupLens 的 真实 数据 集 ， 并 观察 如 何 依 由 评估 在 现实 场景 中 探索 
对 推荐 引擎 的 改进 。 

在 我 们 继续 详解 推荐 引擎 之 前 , 还 有 一 个 重要 的 事情 要 做 , 即 了 解 Mahout 中 推荐 程序 的 为 一 
个 基本 概念 : 数据 表示 。 我 们 将 在 下 一 章 讨 论 它 。 


推 存 人 效 据 的 表示 


本 章 内 容 

口 Mahout 如 何 表示 推荐 数据 
口 DataMode1 的 实现 和 用 法 
口 无 偏好 值 时 的 数据 人 处理 


推荐 的 质量 很 大 程度 上 取决 于 数据 的 数量 和 质量 。“ 种 瓜 得 瓜 , 种 豆 得 豆 ”, 没有 比 用 在 这 里 
更 恰当 的 了 。 拥 有 高 质量 的 数据 当然 是 件 好 事 ， 而 有 旦 通常 越 多 越 好 。 

但 是 , 推荐 算法 天 生 是 数据 密集 型 的 ， 其 计算 涉及 对 大 量 信 息 的 访问 。 因 此 ,数据 的 数量 和 
表示 方式 会 很 大 程度 上 影 啊 执行 性 能 。 智 能 地 选择 数据 结构 能 够 极 大 地 改善 性 能 , 数据 达到 一 定 
规模 的 时 候 ， 这 并 非 小 事 。 

本 章 探讨 Mahout 在 表示 和 访问 推 大 程 序 的 相关 数据 时 所 用 的 关键 类 。 你 会 更 好 地 理解 为 什么 
Mahout 采 用 这 样 的 方式 来 表示 用 户 和 物品 及 其 相关 的 偏好 , 以 达到 高 效 和 可 扩展 性 。 本章 还 会 详 
细 解 析 在 Mahout 中 用 于 访问 数据 的 关键 抽象 : DataModel。 

最 后 ， 让 我 们 来 看 看 当 用 户 和 物品 的 数据 没有 评分 或 偏好 值 时 的 情况 ， 即 所 谓 的 布尔 偏好 
( Boolean preference )， 这 时 就 害 要 做 特殊 的 处 理 。 

第 一 节 介 绍 推荐 数据 的 基本 单元 用 户 对 物品 的 俩 好 〈user-item preference )。 


3.1 仿 好 数据 的 表示 


推荐 引 敬 的 输入 是 偏好 数据 ( preference data ): 什么 人 喜欢 什么 物品 以 及 喜欢 的 程度 。 这 和 意 
味 着 该 输入 就 是 一 个 用 户 人 D、 物 品 帮 和 偏好 值 的 元 组 集合 一 一 这 目 然 是 一 个 大 数据 集 。 有 时 , 偏 
好 值 会 被 忽略 。 


3.1.1 Preference 对 象 


Prefezrence 是 最 基本 的 抽象 ， 表 示 单 个 用 户 ID 、 物 品 ID 和 俩 好 值 。 一 个 对 象 代 表 一 个 用 户 
对 一 个 物品 的 偏好 。Preference 是 一 个 接口 ,你 最 有 可 能 使 用 的 实现 是 GenericPreference。 
例如 ， 下 面 一 行 代 人 码 所 生成 的 表示 形式 意味 着 用 户 123 对 于 物品 456 的 偏好 值 为 3.0: 
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new Genericpreference(123, 456, 3.0f) 

那么 一 组 Preference 该 如 何 表 示 呢 ? 如 果 你 给 出 像 collection<Preference> 或 者 
Preference[] 这 类 答案 ,虽然 看 似 合理 ,但 对 于 大 多 数 Mahout API 而 言 通 稼 都 是 错误 的 。 聚 合 
( collection ) 和 数组 ( Array ) 在 表示 大 量 Preference 对 和 象 时 会 变 得 相当 低 效 。 如 果 你 从 未 见识 
过 Java 中 一 个 object 的 开销 ， 你 一 定 会 被 吓 到 ! 

一 个 GenericPreference 包 含 20 字 市 的 有 用 数据 : 一 个 8 字 市 的 用 户 ID ( Java long )、 一 个 
8 字 节 的 物品 ID (1Long ) 和 一 个 4 子 市 的 偏好 值 ( fl1oat )。 而 该 对 象 的 存在 所 需要 的 开销 令 人 吃 
惊 : 28 字 节 ! 这 个 对 象 的 表示 形式 包含 一 个 8 字 市 的 对 该 对 和 象 的 引用 ,以 及 由 于 opbject 开 销 和 其 
他 对 齐 问题 所 带 来 的 另外 20 字 节 。 于 是 cenericPreference 对 象 仅 由 于 引用 的 开销 上 就 比 实际 
多 消耗 了 1.4 倍 的 内 存 。 


注意 实际 的 开销 大 小 因 JVM 实 现 而 不 同 ; 上 述 数 据 是 针对 苹果 Mac OS X10.6 的 64 位 Java 6 虚拟 
机 而 言 的 。 


该 如 何 表示 大 量 Preference 对 象 呢 ? 在 推荐 算法 中 , 通 稼 需要 一 个 与 某 个 用 户 或 某 个 物品 
关联 的 所 有 信 好 的 聚合 。 在 这 种 聚 全 里， 所 有 Preference 对 象 的 用 户 ID 或 物品 ID 都 是 一 样 的 ， 
这 似乎 是 元 余 的 。 


3.1.2 PreferenceArray 及 其 实现 


看 一 下 PreferenceArray， 这 是 一 个 接口 , 它 的 实现 表示 一 个 偏好 的 聚合 ， 具有 类 似 数 组 
的 API。 例 如 ，GenericUserpPreferenceArray 表 示 的 是 与 某 个 用 户 关联 的 所 有 偏好 。 其 内 部 
包含 一 个 单一 用 户 ID 、 一 个 物品 了 p 数 组， 以 及 一 个 俩 好 值 数 组 。 在 这 个 表示 形式 中 ， 每 个 俩 好 的 
边界 内 存 (marginal memory ) 仪 需 要 12 字 市 (一 个 数组 有 一 个 8 字 节 的 物品 帮 和 一 个 4 他方 的 偏 
好 值 )。 与 此 对 应 ， 一 个 完整 的 Preference 对 象 害 要 大 约 48 字 方 。 这 种 特殊 的 实现 仅 在 内 存 上 
就 节省 了 4 倍 空间 ， 而 且 需 要 由 垃圾 回收 顺 分 配 和 检查 的 对 象 也 少 多 了 ， 因 此 性 能 也 能 获得 一 定 
的 提升 。 比 较 图 3-1 和 图 3-2 就 能 理解 这 种 节省 是 如 何 达 成 的 。 


ml 


用 户 ID 
物品 ID 
偏好 值 
图 3-1 一 种 基于 Preference 对 和 象 数 组 的 相对 低 效 的 偏好 表示 形式 。 灰 色 区 域 大 体 表 
示 object 的 开销 。 白 色 区 域 为 数据 ， 包 括 object 的 引用 
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图 3-2 ”基于 GenericUserPreferenceArray 的 更 高 效 的 表现 形式 
下 列 代 人 码 显 示 了 PreferenceArray 典 型 的 构建 和 访问 方式 。 
代码 清单 3-1 设置 preferenceArray 中 的 仿 好 值 


PreferenceArray userlpPprefs = new GenericUserpreferenceArray (2); 
USerlPrefs.setUserID(0, 1L0);} a . 

设置 这 些 偏好 的 用 户 ID 
UsSserlprefts.setItemID(0, 101L.) 
userlpPrefts.setValue(0, 2.0f).; 
userlprefs,.setItemID{(1, 102L).: _.， 

j 文 此 
USetr1LPrefts.setValue(1，3.0f)， 表示 这 些 仿 好 提取 物品 102 的 

Preference 

Preference pref = userlPrefts.get(1).; 


同样 ， 存 在 一 个 称 为 GbenericItemPreferenceArray 的 实现 ， 它 封装 了 所 有 与 某 一 物品 相 
关联 的 偏好 ， 而 不 是 关联 到 某 个 用 户 。 它 的 用 途 与 用 法 完全 类 似 。 


3.1.3 ”改善 聚合 的 性 能 


你 可 能 会 想 :“ 太 棒 了 ! Mahout 已 经 创造 了 一 个 Java 对 和 象 的 数组 。” 哦 ， 先 别 急 ， 因 为 还 有 人 惊 
喜 。 你 还 记得 我 们 曾 提 到 过 规模 的 重要 性 吗 ?” 希望 你 已 经 明白 使 用 这 种 技术 将 要 面 对 的 数据 大 得 
非 同 寻常 ， 而 这 可 能 会 带 来 出 乎 意料 的 后 果 。 

PreferenceArray 及 其 实现 降低 了 对 内 存 的 需求 ， 即 便 引 入 复杂 性 也 是 值得 的 。 将 内 存 需 
求 砍 掉 3/4 并 不 只 是 节省 了 几 兆 字 节 一 一 在 一 定 规模 下 这 会 节省 出 几 十 GB 的 内 存 容 量 。 这 也 许 就 
是 你 的 现 有 硬件 能 和 否 容纳 下 这 些 数据 的 区 别 。 也 许 这 意味 着 你 是 否 需 要 花费 许多 钱 来 购买 更 多 
RAM， 或 者 一 个 新 的 64 位 系统 。 这 是 一 个 看 似 很 小 ， 却 很 实在 的 节省 。 


~ 


3.1.4 FastByIDMapflFastIDSet 


你 一 定 不 会 吃惊 ;Mahout 的 推荐 程序 中 大 量 使 用 了 Map 和 Set 这 些 典 型 的 数据 结构 , 但 它们 
用 的 并 不 是 通常 的 Java 集 合 (collection ) 的 实现 ， 如 TreeSset 和 HashMap。 相 反 ， 通 览 全 部 的 
实现 与 API， 你 会 找到 FastMap、FastByIDMap 和 和 FastIDSet。 它 们 类 似 于 Map 和 set， 但 做 
了 特殊 定制 , 仪 为 满足 Mahout 中 推荐 程序 的 需要 。 它 们 降低 了 对 内 存 的 占用 ,而 不 是 去 显著 地 
改善 性 能 。 

不 能 把 它们 当做 是 对 Java Collections 框 架 的 批评 。 相 反 ， 和 集合 因为 良好 的 设计 ， 可 以 有 效 地 
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适用 于 很 多 场景 。 只 是 ,它们 无 法 对 使 用 方式 作出 任何 假设 。Mahout 的 知 求 则 更 具 针 对 性 ， 从 而 
可 以 对 用 途 作 出 更 强 的 设 定 。 主 要 区 别 如 下 。 
口 与 HashMap 类 似 ，FastByIDMap 是 基于 散 列 的 。 但 它 在 处 理 散 列 冲突 时 使 用 的 是 线性 探 
测 ( linear probing )， 而 非 分 离 链 接 ( separate chaining )。 这 样 便 不 必 为 每 个 条 目 〈entry ) 
都 增加 一 个 额外 的 Map . Entry 对 象 ; 如 前 所 述 ，object 对 内 存 的 消耗 是 惊人 的 。 
口 在 Mahout 推 荐 程序 中 键 ( key ) 和 成 员 ( member ) 通常 采用 原始 类 型 1ong, 而 非 object。 
使 用 1ong 型 的 键 可 以 节约 内 存 并 提升 性 能 。 
D Set 实现 的 内 部 没有 使 用 Map。 
口 FastByIDMap 可 以 作为 高 速 缓存 ， 因 为 它 有 一 个 最 大 空间 的 概念 ; 超过 这 个 大 小 时 ， 寿 
要 新 加 入 条 目 则 会 把 不 常用 的 移 走 。 
存储 上 的 差异 是 非常 明显 的 : FastIDSet 平 均 每 个 成 员 需 要 大 约 14 字 节 , 而 HashSet 需 要 84 
字 节 。FastByIDMap 每 个 条 目 需要 大 约 28 字 节 ， 而 HashMap 每 个 条 目 需 要 大 约 84 字 节 。 这 说 明 
当 能 够 在 用 途上 作出 更 强 假设 时 , 就 有 可 能 进行 大 幅 的 优化 一 一 这 里 主要 是 在 内 存 需 求 上 。 考虑 
到 推荐 系统 所 处 理 的 数据 量 ， 这 些 定制 化 的 实现 并 非 自 卖 目 奔 。 
那么 ， 这 些 精 心 设计 的 类 被 用 在 哪里 了 呢 ? 


3.2 内存 级 DataModel 


在 Mahout 中 使 用 pataMode1 这 种 抽象 机 制 对 推荐 程序 的 输入 数据 进行 封闭， 而 DataModel 
的 实现 为 各 类 推荐 算法 提供 了 对 数据 的 高 效 访问 。 例如 , DataModel 可 以 提供 输入 数据 中 所 有 用 
户 ID 的 计数 或 列表 、 提 供与 某 个 物品 相关 的 所 有 偶 好 , 或 给 出 所 有 对 一 组 物品 ID 表达 过 俩 好 的 用 
卢 的 个 2 

本 节 仅 关注 一 些 要 点 ; 更 多 关于 DataModel 的 内 容 参 见 在 线 的 Javadoc 文 档 ( https://builds. 
apache.org/job/Mahout-Quality/javadoc/ )。 


3.2.1 GenericDataModel 


内 存 级 (in-memory ) 实现 GenericDataModel 是 现 有 DataModel 实 现 中 最 简单 的 。 它 适用 
于 通过 程序 在 内 存 中 构造 数据 的 表示 形式 , 而 不 是 基于 来 目 外 部 的 数据 源 , 如 文件 或 天 系数 据 库 。 
世人 简单 地 将 偏好 作为 输入 ， 采 用 FastByIDMap 的 形式 ， 将 用 户 D 映 冉 到 这 些 用 户 的 数据 所 在 的 
PreferenceArray 上 ， 如 下 所 示 。 


代码 清单 3-2 利用 GenericDataMode1l 在 程序 中 定义 输入 数据 


FastByIDMap<PreferenceaArray> preferences = 
new FastByIDMap<PreferenceArray>{).;: 


PIELr 


erenceArray prefsForUserl = new GenericUserPpreferenceArray (10).， 


prefsForUserl.setUserID(0O, 1L).; 
prefsForUserl.setItemID(0, 101L); 
Bref Ly we 


增加 10 个 偏好 中 的 第 1 个 


SFoOrUserl, setValue 
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prefsForUserl.setItemID{(1, 102L); 
prefsForUserl.setValue(1, 4.5f}); 
. {8 more) 


| 在 输入 中 附 上 用 户 1 的 偏好 


preferences .put(lL, prefsForUserl1l).; 


DataModel model = new GenericDataModel (preferences}): 

GenericDataModel 使 用 了 多 少 内 存 呢 ?被 存储 的 偏好 的 个 数 决 定 了 对 内 存 的 需求 ,根据 一 
些 经 验 性 的 测试 得 知 ， 每 个 信 好 大 约 消耗 28 字 广 的 Java 堆 空间 。 这 包括 所 有 数据 以 及 其 他 文 持 性 
的 数据 结构 ， 如 索引 0 如 果 你 乐音 , 可 以 尝试 : 加 载 GenericDataMode1l 调用 几 次 System elsa 
再 比较 Runtime.totalMemory () 和 Runtime.freeMemory () 的 结果 。 这 种 比较 非常 粗略 ， 但 
会 对 数据 所 消耗 的 内 存 有 一 个 合理 的 估计。 


3.2.2 ”基于 文件 的 数据 


你 通常 不 会 直接 使 用 cenericDataModel， 而 是 借助 于 FileDataMode1l， 后 者 从 文件 中 读 
取 数 据 ， 并 将 所 得 到 的 偏好 数据 存储 到 内 存 中 ， 即 存储 到 GenericDpataModel 中 。 

几乎 任何 正 篆 的 文件 都 可 以 用 ， 比 如 第 2 章 中 采用 的 CSV (Comma-Separated Value， 全 号 分 
隔 值 ) 格式 的 那 种 文件 。 每 行 包含 一 个 数据 : 用 户 ID 、 物 品 ID 和 偏好 值 。 采 用 制 表 符 分 隔 也 是 可 
以 的 。 用 zip 或 gzip 压 缩 的 文件 同样 可 以 ， 只 要 名 字 分 别 以 .zip 或 .gz 结尾 。 将 数据 以 压缩 格式 存储 
是 一 个 很 好 的 主意 ， 因 为 它 会 非常 大 且 很 容 多 压缩 。 


3.2.3 ”可 刷新 组 件 


虽然 我 们 谈论 的 是 加 载 数据 , 但 仍 有 必要 讲 一 讲 重 加 载 数据 ( reloading data )， 以 及 Refreshable 
接口 , 即 在 Mahout 推 荐 程序 相关 类 中 所 实现 的 几 个 组 件 。 它 只 公开 了 一 个 方法 refresh (Collection 
<Refreshable>) 。 该 方法 简单 地 请 求 组 件 在 最 新 的 输入 数据 上 进行 : 重 加 载 (reload )、 重 算 
(recompute ) 并 刷新 〈refresh ) 自身 状态 ， 并 事先 让 它 的 依赖 ( dependency ) 也 这 样 做 。 

例如 ，Recommender 在 重新 计算 其 内 部 数据 索引 时 ， 多 会 在 它 所 依赖 的 DataModel 上 调用 
refresh()。 人 循环 依赖 〈cyclical dependency ) 和 共享 依赖 ( shared dependency ) 被 管理 得 很 好 ， 
如 图 3-3 所 示 ( 基于 图 2-2 )。 


[sl 
国 


4 Recommender eh | DataModel 


UserNe i 


3 
图 3-3 一 个 简单 的 基于 用 户 的 推荐 系统 ， 季 头 所 示 为 组 件 之 间 刷 新 数据 结构 的 顺序 
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注意 ，FileDataModel 仅 会 在 被 请 求 的 时 候 才 从 底层 文件 重新 加 载 数据 。 出 于 性 能 和 考虑， 
它 不 会 目 动 检测 更 新 或 定期 重新 加 载 文件 的 内 容 。 这 是 refresh () 方 法 该 做 的 事 。 你 大 概 不 会 只 
想 刷 新 FileDataMode1l， 而 是 布 望 所 有 依赖 该 数据 的 对 象 都 秆 刷 新 。 实 际 上 ， 这 就 是 为 什么 你 
总 要 在 如 下 Recommender 中 明确 调用 refresh() 的 原因 。 


代码 清单 3-3 ”触发 一 个 推荐 系统 的 刷新 
DataModel dataModel = new FileDataModel (new File('"input.csv'"). 
Recommender recommender = new SlopeOCneRecommender (dataModel}.: 


wg refresh{null); < 刷新 DataModel1， 然 后 刷新 自己 

因为 规模 是 贯穿 本 书 的 主题 ， 我 们 应 该 强调 FilepataMode1 另 一 个 有 用 的 特性 : 更 新 文件 。 
数据 总 在 改变 , 通常 改变 的 数据 只 是 所 有 数据 中 很 小 的 一 部 分 , 甚至 可 能 仅仅 是 十 亿 个 数据 中 的 几 
个 点 。 只 为 了 儿 个 数据 的 更 新 对 一 个 包含 十 亿 个 偏好 的 数据 做 一 个 全 新 的 复制 ， 这 是 非常 低 效 的 。 


3.2.4 更 新 文件 


FileDataModel 文 持 更 新 文件 。 它 们 就 是 在 读 取 主 数 据 文件 之 后 额外 生成 的 数据 文件 ， 并 
可 以 履 兰 任何 以 前 谈 取 的 数据 。 通 过 座 加 来 形成 新 的 侦 好 ,还 可 以 更 新 现 有 俩 好 。 通 过 设 一 个 仙 
好 值 为 空 的 字符 串 来 实现 删除 。 

例如 ， 考 虑 如 下 的 更 新 文件 : 


1 ,108 ,3.0 
1 


就 是 说 ,“ 更 新 (或 生成 ) 用 户 1 对 物品 108 的 偏好 ， 并 将 值 设 为 3.0”"， 以 及 “删除 用 户 1 对 物 
品 103 的 偏好 ”。 

这 些 更 新 文件 必须 和 主 数据 文件 在 同一 个 目录 下 , 有 旦 文件 名 的 前 级 (第 一 个 域 ) 相同 。 例 如 ， 
如 果 主 数据 文件 为 foo.txtsz， 更 新 文件 可 为 foo.1.txtgz 和 foo.2.txtgz。 它 们 可 以 是 压缩 文件 。 


3.2.5 ”基于 数据 库 的 数据 


有 时 数据 就 是 太 大 了 ， 无 法 放 入 内 存 。 一 旦 数据 集 有 几 千 万 个 偏好 ， 内 存 需 求 会 增长 到 几 
GB， 在 某 些 场 景 下 可 能 无 法 文 持 这 么 大 的 内 存 容 量 。 

偏好 数据 是 有 可 能 存储 到 一 个 关系 数据 库 中 并 进行 访问 的 , 而 Mahout 支 持 这 样 做 。 在 Mahout 
推荐 程序 中 ， 一 些 类 的 实现 出 于 性 能 考虑 会 把 计算 下 放 到 数据 库 中 。 

要 知道 ， 当 推荐 引 警 所 用 的 数据 来 自 数据 库 时 , 它 的 运行 要 比 使 用 内 存 级 的 数据 表示 慢 很 多 
倍 。 这 并 不 是 数据 库 的 错 ; 通过 合理 地 调 优 和 配置 ， 一 个 现代 数据 库 可 以 用 于 极其 高 效 地 对 信息 
进行 索引 和 检索 , 但 检索 .整理 ( marshalling )、 序 列 化 ( serializing )、 传 输 和 反 序 列 化 ( deserializing ) 
结果 集 的 开销 仍 远大 于 从 优化 的 内 存 级 数据 结构 中 读 取 数据 的 开销 ,由 于 推荐 算法 是 数据 密集 型 
的 ， 这 种 开销 会 快速 积累 。 不 过 ， 当 没有 其 他 选择 时 ， 数据库 仍 是 理想 选择 , 或 者 虽然 所 用 数据 
集 不 太 大 ,但 为 了 集成 还 需要 重用 一 个 现 有 的 数据 表 ， 此 时 也 应 选择 数据 库 。 
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3.2.6 JDBC 和 MySQL 


俩 好 数据 是 通过 JDBC 访 问 的 ， 使 用 了 DBCcDataMode1l 的 实现 。 现 在 ，JDBcDataMode1l 的 
主要 子 类 是 为 使 用 MySQL 5.x 而 写 的 : MySQLJIDBCDataModel。 它 在 MySQL 的 早期 版 本 上 也 很 
好 用 ， 甚 至 可 用 于 其 他 数据 库 ， 因 为 尽 可 能 地 使 用 了 标准 的 ANSI SQL。 变 种 的 实现 也 不 难 ， 可 
以 结合 需求 使 用 数据 库 所 专 有 的 语法 和 特性 。 


注意 在 Mahout 的 开发 版 本 中 有 一 个 专 为 PostereSQL 而 做 的 JDBCDataModel 的 实现 。 还 有 一 个 
GenericJDBCDataModel 类 ， 它 允许 你 使 用 那些 没有 做 专 有 实现 的 数据 库 中 的 数据 。 


默认 情况 下 ， 这 个 实现 假设 所 有 的 偏好 数据 位 于 一 个 名 为 Laste_preferences 的 表 中 ,其 
中 用 户 ID 的 列 为 user_iq, 物品 卫 的 列 为 item_iaq, 偏好 值 的 列 为 preference。 其 模式 如 表 3-17 
所 示 。 该 表 还 可 以 包含 一 个 名 为 timestamp 的 字段 ， 它 的 类 型 应 该 兼容 于 Java 的 1ong 型 。 
表 3-1 MySQL 中 taste_preferences 表 默认 的 模式 


BIGINT NOT NULL BIGINT NOT NULL FLOAT NOT NULL 
TNDEX TNDEX 


PRIMARY KEY 


3.2.7 ”通过 JNDI 进 行 配 置 


JDBCDataModel 实 现 还 假设 包含 这 个 表 的 数据 库 可 以 通过 一 个 DataSource 对 和 象 来 访问 , 这 
个 对 和 象 已 经 注册 到 名 为 jdbc/taste 的 JNDI 中 。 

你 也 许 会 问 : 什么 是 JNDHE” 它 的 全 称 为 Java Naming and Directory Interface， 即 Java 命 名 与 
目录 接口 ， 它 是 J2EE ( Java 2 Enterprise Edition ) 规范 的 核心 。 如 采 你 正在 一 个 Web 应 用 中 使 用 推 
荐 引擎 ,并 正在 使 用 Tomcat 或 Resin 这 样 的 servlet 容 髓 , 那么 你 很 可 能 已 经 间接 用 到 了 JNDI。 如 果 
正 通过 容 硕 〈 例 如 Tomcat 的 server.xml 文 件 ) 配置 数据 库 ， 你 会 发 现 这 个 配置 通常 会 被 JINDI 中 的 
DataSource 所 引用 。 

你 可 以 将 数据 库 配 置 为 jdbc/taste， 其 中 包含 JDBCDataModel 会 使 用 的 细节 。 这 里 有 Tomcat 
可 用 配置 的 一 个 族 段 。 


人 ) 在 MySQL 中 创建 该 表 的 命令 可 以 写 为 : CREATE TABLE taste preferences (user_id BIGINT NOT NULL, 
item id BIGINT NOT NULL, preference FLOAT NOT NULL, PRIMARY KEY (user_ id, item id), INDEX 
(user_id), INDEX (item id))。 译 者 注 

Oo JNDI 避 免 了 数据 库 和 程序 之 间 的 紧 耦 合 。 当 数据 库 相 关 参 数 发 生变 更 时 , 仪 需 在 JNDI 中 修改 相关 配置 ,而 无 须 修 
改 程序 。 一 一 译 者 注 
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代码 清单 3-4 ”在 Tomcat 中 配置 一 个 JNDI DataSource 


<Resource 
name="Jdbc/taste" 
auth="Container' 
type=-" javax.sgql.DatasSource'" 
USEeErname= "user" 
password="password" 
driverClassName="com.mysgql .dbc.Driver'" 
url="jdbc:mysgql://localhost:3306/mydatabase"/> 


默认 的 名 字 (jdbc/taste ) 可 以 根据 环境 需要 更 换 。 你 还 可 以 像 上 面 这 样 不 去 明确 地 为 数据 库 
和 列 命 名 。 


3.2.8 利用 程序 进行 配置 


你 也 不 必 直 接 使 用 JNDI, 而 是 将 DataSource 直 接 传递 到 MySQLJDBCDataMode1l1 的 构造 阴 数 
中 。 下 面 的 代码 清单 显示 了 配置 MySQLJDBCDataModel 的 一 个 完整 示例 ， 其 中 说 明了 如 何 使 用 
MySQL Connector/J 驱 动 (http:/www.mysql.com/products/connector/ )， 以 及 指定 了 表 和 列 名 的 


DataSource,。 


代码 清单 3-5 利用 程序 配置 Datasource 


MysqlDataSsource dataSource = new MysgqlDataSource (});，} 
QataSsSource.setSserverName ("my database host"); 
Qatasource.setUser ("my user"), 
dataSource.setPassword!('"'my password"}); 
QataSsSource.setDatabaseName ("my database name").; 
JDBCDataModel dataModel = new MySOQLIDBCDataModel{ 
dataSsource, "my prefs table", "my_user _ column", 
"my_item column", "my_pref value _ column" ) ; 


这 束 是 将 数据 库 中 的 数据 用 于 推荐 所 需 做 的 所 有 事情 。 
你 现在 已 经 得 到 了 一 个 与 折 有 推荐 程序 组 件 兼 容 的 DataModel1 但 是 正如 MysQLJDBCData- 
Mode1l 的 文档 所 说 的 ， 高 效 地 推荐 需要 正确 配置 数据 库 与 驱动 。 具 体 如 下 所 述 。 
口 用 户 ID 和 物品 D 列 应 为 非 空 ， 而 且 必 须 被 索引 。 
口 主键 必须 为 用 户 帮 和 物品 帮 的 组 合 。 
口 列 的 数据 类 型 根据 Java 中 对 应 的 1ong 和 float 型 来 选择 。 在 MySQL 中 , 它们 应 为 BIGINT 
和 FLOAT。 
口 注意 调 厄 缓冲 区 和 查询 高 速 缓存 ( query cache )， 风 MySQLJDBCDataModel 的 Javadoc。 
口 当 使 用 MySQL 的 Connector 休 驱动 时 ， 将 驱动 的 参数 ( 如 cachePreparedStatements ) 
设 为 trrue， 细 节 同 样 风 Javadoc。 
上 上述 讨论 已 经 涵盖 了 使 用 Mahout 推 荐 引擎 框架 中 DataMoael 的 基础 。 在 这 些 实现 中 还 有 一 
个 重要 的 变 体 需要 讨论 : 如 何 表示 偏好 值 缺 失 的 数据 。 这 听 起 来 有 些 奇 怪 ， 因 为 偏好 值 似乎 是 推 
存 引 | 擎 所 必须 的 输入 数据 。 但 有 时 ， 偏好 值 不 存在 或 者 忽略 偏好 值 是 有 好 人 处 的 。 
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3.3 ”无 偶 好 全 的 处 理 


有 时 ， 输 入 推荐 引擎 的 俩 好 没有 值 。 也 就 是 说 ,用户 和 物品 是 关联 的 ,但 是 没有 这 种 关联 的 
强度 朱 述 。 例 如 ， 一 个 新 闻 网 站 要 根据 用 户 以 前 训 览 的 新 闻 文 草 做 推荐 , 但 只 知道 一 些 用 户 和 物 
品 之 间 的 关联 ,而 没有 更 多 的 信息 ， 因 为 用 户 通常 不 会 去 评价 文章。 用 户 在 浏览 文章 之 外 甚至 者 
很 少 会 去 做 其 他 的 事情 。 这 时 ， 我 们 仪 能 得 知 与 用 户 关 联 的 是 哪 篇 文 草 ， 以 及 少量 的 其 他 信息 。 

在 这 里 , 我 们 别 无 选择 ; 在 输入 中 没有 侦 好 值 可 以 作为 初始 值 。 本 章 后 续 的 技术 和 建议 仍 适 
用 该 场景 。 即 便 在 输入 中 的 确 存 在 修好 值 ， 有 时 忽略 它们 也 会 有 好 处 。 至 少 在 有 的 时 候 ， 这 样 做 
没有 坏处 。 

这 并 非 要 环 记 用 户 和 物品 之 间 的 关联 ,而 是 忽略 其 中 的 俩 好 强度 。 例 如 ， 当 推荐 一 部 新 电影 
时 ,不 是 考虑 你 看 过 哪些 电影 以 及 你 古 如 何 评价 它 的， 而 只 是 简单 地 考虑 你 看 过 的 是 哪些 电影 。 
不 是 获取 “用 户 1 对 电影 103 表 达 的 偏好 为 4.5”, 而 是 筷 记 4.5 这 个 值 , 将 “用 户 1 和 电影 103 有 关联 ” 
这 样 的 数据 作为 输入 ， 这 会 很 有 用 。 图 3-4 说 明了 这 种 区 别 。 


图 3-4 用 户 和 物品 之 间 具 有 侯 好 值 的 关系 〈 左 网 ) 和 不 具有 偶 好 值 的 关系 〈 右 网 ) 


由 于 缺少 更 好 的 术语 来 表达 ， 在 Mahout 的 语言 里 ， 这 种 没有 偏好 值 的 关联 称 为 布尔 型 偏好 
( Boolean preference )， 因 为 一 个 关联 只 可 能 有 两 个 值 : 存在 或 不 存在 。 这 并 不 意味 着 数据 中 的 物 
品 依 好 是 yes 或 no， 而 是 会 让 用 户 -物品 关联 具有 全 部 的 三 种 可 能 状态 : 喜欢 、 不 喜欢 或 无 所 谓 。 


3.3.1 何 时 忽略 值 


(ff W) 为 什么 要 忽略 偏好 值 ? 因为 这 么 做 在 一 定 场景 下 是 有 好 处 的 , 此 时 喜欢 或 不 喜欢 一 个 物品 相 
No.3 对 而 言 都 差不多 ， 至 少 和 根本 没有 关联 相 比 是 这 样 的 。 
让 我 们 举例 说 明 。 想 象 有 这 么 一 个 人 ， 他 不 喜欢 古典 作曲 家 Rachmaninoff 的 作品 。 事 实 上 ， 
他 在 目 己 的 iTunes 库 中 对 Rachmaninoff 的 几 个 作品 给 出 了 1 星 或 2 星 的 评价 。 除 了 这 些 作品 ， 世 界 
上 还 有 无 数 的 首 乐 ， 其 中 一 些 是 他 从 来 没有 听 过 的 就 像 挪威 死亡 金属 乐 ， 即 Norwegian death 
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metal ), 他 其 至 是 因为 足够 了 解 Rachmaninoff 而 不 喜欢 他 的 作品 , 甚至 在 iTunes 库 的 开头 还 和 留 有 几 
个 Rachmaninoff 的 作品 ， 这 些 都 显示 了 他 和 这 个 作曲 家 的 关联 ， 甚 至 透漏 出 他 对 类 似 作 品 的 一 种 
偏好 。 与 大 千 世 界 中 他 完全 不 知道 的 作品 相 比 ， 这 种 关联 是 非常 明显 的 。 虽 然 他 也 许 会 给 
Rachmaninoff 一 个 1 星 评价 ， 而 给 Brahms 一 个 5 星 ， 实 际 上 这 都 传递 了 一 些 类 似 的 信息 : 一 种 对 古 
典 音 乐 的 兴趣 。 因 此 ， 蕊 记 实 际 的 评分 反 ， 认 真 思 考 这 一 事实 ， 甚 至 可 以 给 出 更 好 的 推荐 。 

你 可 能 会 反驳 说 这 是 用 户 的 错误 。 难 道 他 不 会 给 Rachmaninoff 一 个 4 星 ? 因为 还 有 挪威 死亡 
金属 乐 ， 而 这 可 能 才 是 他 会 给 出 1 星 评价 的 作品 。 也 许 如 此 ， 但 这 就 是 生活 。 输 入 常常 是 有 问题 
的 。 你 可 能 还 会 反 驶 说 , 虽然 这 对 于 从 所 有 类 型 的 音乐 中 做 推荐 是 合理 的 , 但 忽略 这 些 数据 的 话 ， 
在 只 推荐 古典 作曲 家 时 可 能 使 推荐 效果 变 差 。 的确 如 此 ; 但 在 一 个 领域 中 的 好 方案 并 不 总 是 能 移 
植 到 其 他 领域 的 。 


3.3.2 无 仿 好 值 时 的 内 存 级 表示 


没有 了 偏好 值 会 极 大 地 简化 偏好 数据 的 表示 ， 这 会 获得 更 优 的 性 能 并 显著 降低 对 内 存 的 占 
用 。 如 前 所 述 ，Mahout 的 Preference 对 象 将 偏好 值 存 为 4 字 广 的 Java float 型 。 没 有 了 俩 好 但， 
在 内 存 中 每 个 偏好 能 够 市 省 4 字 方 。 实 际 上 ， 重 复 前 面 的 粗略 测试 可 以 看 到 ， 每 个 仿 好 的 内 存 消 
耗 平均 减少 了 4 字 节 ， 降 为 24 字 。 

这 来 自 于 对 GenericDataModqe1 挛 生 见 第 GenericBooleanPrefDataMode1l 的 测试 。 这 是 
为 一 个 内 存 级 的 DataModel 实 现 , 但 其 内 部 并 不 存储 偏好 值 。 它 简单 地 将 关联 和 存 为 FastIDSet; 
例如 ， 每 个 用 户 用 1 个 ， 来 代表 与 用 户 关 联 的 所 有 物品 ID。 其 中 不 包含 偏好 值 。 

为 GenericBooleanpPrefDataModel 也 是 一 个 DataModel ， 它 有 时 可 以 代 替 
GenericDataModel 。 DataModel 的 一 些 方法 使 用 这 个 新 的 实现 会 更 快 如 getItemIDs 
ForUser ( ) ， 因为 新 的 实现 已 经 有 现成 的 结果 。 有 些 则 会 变 慢 ， UlgetPreferencesFromUser () i 
为 新 的 实现 不 使 用 PreferenceArray， 必 须 实例 化 一 个 才能 实现 这 个 方法 。 

你 也 许 想 知 道 getPreferenceValue () 会 返回 什么 ， 因 为 这 里 并 没有 偶 好 值 。 它 并 不 抛 出 
UnsupportedoperationException， 而 会 一 概 返回 相同 的 假 值 : 1.0。 必 须 注意 这 一 点 ， 
为 依赖 于 偏好 值 的 组 件 仍 会 从 该 DataModel 中 获取 一 个 值 。 这 些 偏 好 值 是 假 值 且 不 会 改变 , 这 会 
审 来 一 些小 问题 。 

让 我 们 回 到 上 一 章 的 GroupLens 示 例 。 但 代码 改 为 使 用 GenericBooleanPrefDataModel， 
如 代码 清单 3-6 所 示 。 


代码 清单 3-6 ”布尔 型 数据 的 生成 与 评估 
DataModel model = new GenericBooleanprefDataModelt 
GenericBooleanprefDataModel .toDataMap{ 


new FileDataModel (new File({"ua.base'"))))}); 


使 用 GenericBooleanPrefDataModel 
RecommenderEvaluator evaluator = 


new AverageAbsoluteDifferenceRecommenderEvaluator().; 


RecommenderBuilder recommenderBuilder = new RecommenderBuilder{}) 1 
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Public Recommender buildRecommender ‘DataModel model) 

throws TasteException { 

UserSimilarity similarity = 
new PearsonCorrelationSsimilarity (model!}: 

UserNeighborhood neighborhood = 
new NearestNUserNeighborhood(10, similarity, model).; 

return 
new GenericUserBasedRecommender {model, neighborhood, simijlarity)}): 


} 
ee 


DataModelBuilder modelBuilder = new DataModelBuilder(}) ff 
Public DataModel buildDataModel'l 
FastByIDMap<PreferenceArray> trainingData) { 
return new GenericBooleanPprefDataModel ( 
GenericBooleanprefDataModel .toDataMap{ 


trainingData)).; 
} 构造 一 个 
py GenericBooleanPrefDataModel 


double score = evaluator.evaluate!t 
recommenderBuilder, modelBRBuilder, model, 0.9, 1.0}). 
System.out.printiln(score): 


该 示例 的 关键 在 于 DataModelBuilder。 你 可 以 用 它 控制 评估 过 程 构造 用 于 训练 数据 的 
DataModel 。 GenericBooleanPrefDataModel 获 取 输 入 的 方式 略为 不 同一 一 通过 一 组 
FastIDSet 而 非 preferenceArray 一 一 有 一 个 toDataMap () 方 法 可 以 方便 地 转换 它们 。 

阅读 下 一 节 之 前 ， 试 看 运行 这 段 代码 一 一 它 不 会 成 功 地 结束 。 


3.3.3 ”选择 羔 容 的 实现 


你 会 发 现 运 行 代 人 码 清 单 3-6 中 的 代码 会 导 作 一 个 来 自 PearsonCorrelationSimilarity 构 
造 浮 数 的 异常 Il legalArgumentException,o 初 看 这 会 让 人 感到 奇怪 :GenericBooleanpref- 
DataModel 不 也 是 一 个 DataModel 吗 ?而 且 它 除了 不 存储 明确 的 偏好 值 之 外 ， 几 乎 与 
GenericDataMode1 相 同 。 

如 果 人 缺少 偏好 值 ， 像 EuclidqeanDistanceSimilarity 这 样 的 相似 性 度量 会 拒绝 工作 ， 
为 其 结 采 会 是 未 定义 的 (undefined ) 或 无 意义 的 ， 从 而 导致 无 用 的 结 采 。 如 采 两 个 数据 集 是 相同 
数值 的 简单 重 复 , 它们 之 间 的 皮尔 人 逮 相关 系数 是 未 定义 的 。 这 里 , DataModel 假 设 所 有 偏好 值 均 
为 1.0。 类 似 地 ， 计 算 对 应 于 空间 上 同一 个 点 的 所 有 用 户 之 间 的 欧 氏 距离 ( Euclidean distance， 
又 称 欧 几 里 得 距离 )， 即 这 里 的 (1.0, 1.0,…, 1.0) 是 无 意义 的 ， 因 为 所 有 的 相似 性 均 为 1.0。 


注意 皮尔 了 还 相关 系数 是 两 个 数据 集 的 协 方 差 与 其 标准 差 之 间 的 比值 。 当 所 有 数据 为 1 时， 两 个 
值 均 为 0， 而 目前 Java 在 计算 0/0 的 相关 结果 时 一 定 会 返回 “nota number”。” 


(在 PearsonCorrelationSimilarity 中 通过 return Double.NaN; 来 实现 。 一 一 译 者 注 


这 个 例子 具有 普 明 意义 , 它 说 明了 即使 组 件 会 采取 一 系列 的 标准 接口 来 获得 区 互 性 , 也 无 法 
保证 每 个 实现 都 彼此 相 容 。 为 了 解决 这 个 现实 问题 ， 需 要 一 个 合适 的 相似 性 度量 。 
LogLikelihoodSimilarity 就 是 这 样 的 一 个 实现 ， 因 为 它 并 非 基 于 实际 的 偏好 值 。( 我 们 稍 后 
会 讨论 相似 性 度量 。) 用 它 来 替代 PearsonCorrelationSimilarity， 结 果 为 0.0。 这 很 棱 ， 
为 这 意味 着 完美 的 预测 结果 。 是 不 是 好 得 过 火 了 呢 ? 

很 遗憾 ,的 确 如 此 。 这 个 结 末 是 当 每 个 俩 好 住 为 1 时 ,估计 修好 和 实际 俩 好 之 间 的 平均 差 住 。 
结束 目 然 会 等 于 0; 这 个 测试 是 无 效 的 ， 因 为 它 只 能 输出 0。 

但 是 查 准 率 和 查 全 率 的 评 佑 仍 是 有 效 的 。 让 我 们 尝试 在 下 面 的 代码 清单 中 来 实现 它 。 


代码 清单 3-7 利用 布尔 型 数据 评估 查 准 率 和 查 全 率 
DataModel model = new GenericBooleanprefDataModelt 
new FileDataModel (new File{'"'ua.base'")}))}. 


RecommenderIRStatsEvaluator evaluator = 
new GenericRecormenderIiRStatsEvaluator(}.: 
RecommenderRuilder recommenderBuilder = new RecommenderBuilder{) f{ 
GOverride 
public Recommender buildRecommender (DataModel model) { 
UserSimilarity simijarity = new LogLikelihoodsimilarity (model), 
UserNeighborhood neighborhood = 
new NearestNUserNeighborhood{(10, similarity, model).; 
return new GenericUserBasedReconmendert 


model, neighborhood, similarity),; 
} 
}; 
DataModelBuilder modelBuilder = new DataModelBuilder{() f{ 
QOverride 
Public DataModel buildDataModel 
FastByIDMap<PreferenceArray> trainingData} { 
return new GenericBooleanPprefDataModel! 
GenericBooleanPrefDataModel.toDataMap (trainingData)}).; 
} 
3 
IRStatistics stats = evaluator.evaluaterl 
recommenderBuilder, modelBuilder, model, null, 10, 
GenericRecommenderliRStatsEvaluator.CHOOSE THRESHOLD, 
自卫 
System.out.println{(stats.getPrecision!{)),; 
System.out.println(stats.getRecall!{()).,， 


所 得 查 准 率 和 查 全 准 部 是 大 约 24.7%。 这 不 算 太 好 ; 回顾 一 下 ， 这 意味 看 返回 的 推荐 中 只 有 
1/4 是 好 的 ， 而 好 的 推荐 中 只 有 1/4 在 返回 结果 中 。 

这 可 追查 出 为 一 个 问题 ; 仍 有 一 个 地 方 隐藏 看 俩 好 值 : GenericUserBasedRecommender。 
这 个 推荐 程序 仍 基于 其 估计 的 偏好 对 推荐 进行 排序 ， 但 这 些 值 均 为 1.0。 因 此 顺序 基本 上 是 随机 
的 。 相反 ， 你 可 以 引入 CenericBooleanPrefUserBasedRecommender ( 顾名思义 上 这 个 变 体 
可 以 让 推荐 形成 更 有 意义 的 顺序 。 它 为 与 其 他 类 似 用 户 相 关 的 物品 计算 权重 ， 用 户 相 似 度 越 高 ， 
这 个 权重 越 大 。 它 并 不 生成 加 权 平 均 。 
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尝试 人 蔡 代 这 个 实现 并 重新 运行 代码 。 结 果 大 约 为 22.9% 一 一 大 致 相同。 这 显然 说 明 在 这 个 数 
据 上 我 们 并 未 使 用 一 个 超 高 效 的 推荐 系统 。 这 里 的 目的 并 不 是 修复 它 ， 而 仪 仅 为 了 审视 如 何在 
Mahout 推 存 程序 中 高 效 地 部 署 布 尔 型 数据 。 

还 有 其 他 DataModel 的 布尔 型 变种 。FileDataModel 会 在 输入 数据 不 包含 仿 好 值 时 ( 行 只 
采用 userID , itemID 的 形式 ) 在 内 部 目 动 使 用 cenericBooleanPrefDataModel。 类 似 地 3 
MySQLBooleanPrefDataModel 适 合 在 数据 库 表 中 无 偏好 值 列 时 使 用 。 否 则 它 完 全 类 似 于 
MySQLJDBCDataModel。 特别 地 ， 这 种 实现 可 以 充分 利用 数据 库 中 更 多 的 快捷 方式 来 提高 性 能 。 

最 后 , 如 采 你 想 知 道 是 否 可 以 将 布尔 型 和 非 布 尔 型 数据 在 一 个 DataModel 中 混合 使 用 , 那么 
答案 是 : 不 行 。 一 个 解决 办 法 是 忽略 偏好 值 ， 而 将 之 视 为 布尔 型 数据 。 或 者 ， 如 果 你 出 于 某 种 原 
因 不 希望 抛弃 它们 , 那些 缺失 的 偏好 值 可 以 通过 一 些 办 法 推测 出 来 即便 只 是 简单 地 填充 一 个 现 
有 偏好 值 的 平均 数 。 
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在 本 章 , 我 们 探讨 了 如 何在 Mahout 的 推荐 程序 中 表示 仿 好 数据 ,其 中 涉及 Preference 对 象 ， 
还 有 特定 的 数组 和 类 似 聚 合 的 实现 ， 如 PreferenceArray 和 FastByIDMap。 它 们 主要 用 来 降低 
内 存 占 用 。 

我 们 研究 了 DataModel， 它 是 推荐 程序 输入 的 一 个 整体 抽象 。GenericDataModel 把 数据 
放 在 内 存 中 ， 就 像 FileDataModel 从 文件 中 读 取 输入 数据 之 后 所 做 的 一 样 。JDBCDataModel 和 和 
其 他 实现 文 持 基 于 关系 库 表 的 数据 ; 我 们 特别 观察 了 与 MySQL 的 集成 。 

最 后 ， 我 们 查看 了 当 输入 数据 仅 包 含 用 户 -物品 关联 ， 而 不 包含 伍 好 值 时 所 带 来 的 变化 。 有 
时 ， 这 就 是 可 用 的 所 有 数据 ， 而 这 必然 减少 对 存储 的 需求 。 我 们 看 到 这 类 数据 不 兼容 于 
PearsonCorrelationSimilarity 等 标准 组 件 , 我 们 还 考虑 如 何 解 决 这 类 问题 并 得 到 一 个 基于 
布尔 型 输入 数据 的 函数 级 推荐 程序 。 

下 一 章 ， 我 们 会 继续 检视 数据 表示 的 各 种 可 能 并 锋 探 其 可 用 的 推荐 程序 实现 。 


进行 推 存 


本 章 内 容 

口 进一步 了 解 基于 用 户 的 推荐 程序 
口 相似 性 度量 

口 基于 物品 的 推荐 程序 及 其 他 


我 们 用 了 一 章 的 篇 幅 来 讨论 如 何 评价 推 莽 程 序 , 以 及 推荐 程序 的 输入 数据 形式 , 是 时 候 来 次 
入 探究 推荐 程序 本 喘 了 。 我 们 就 此 开始 切入 正题 。 

前 面 的 草 节 提 到 两 类 典型 的 推 存 算法 , 它们 均 在 Mahout 中 得 到 实现 : 基于 用 户 的 推荐 程序 和 
基于 物品 的 推 存 程序 。 实 际 上 ， 在 第 2 曹 我 们 已 经 遇 到 过 一 个 基于 用 户 的 推荐 程序 。 本 曹 将 仔细 
探究 和 讨论 这 些 算法 背后 的 理论 及 其 在 Mahout 中 的 实现 。 

两 种 算法 均 依 赖 于 两 个 事物 (用户 或 物品 ) 之 则 的 相似 性 度量 , 或 者 说 等 同性 定义 。 相 似 性 
的 定义 有 多 种 ， 本 章 将 详细 介绍 Mahout 中 可 供 选 择 的 方法 。 它 们 包括 基于 皮尔 逊 相关 系数 
( Pearson correlation )、 对 数 似 然 值 (log likelihood )、 斯 皮尔 曼 相 关系 数 ( Spearman correlation )、 
谷 本 系数 (Tanimoto coefficient ) 等 的 实现 。 

最 终 ， 本 章 还 会 介绍 Mahout 中 实现 的 其 他 几 种 推荐 算法 ， 包 括 slope-one 、 基 于 SVD 
(SVD-based ) 和 基于 聚 类 (clustering-based ) 的 推荐 算法 。 


4.1 ”理解 基于 用 户 的 推荐 

如 有 果 你 看 过 前 面 所 讲 的 推荐 算法 , 就 会 知道 它 是 一 种 基于 用 户 的 推荐 算法 。 它 是 在 这 个 领域 
早期 研究 中 阐述 的 方法 ，Mahout 目 然 会 有 它 的 实现 。“ 基 于 用 户 ” 这 个 说 法 有 些 不 准确 ， 因 为 所 
有 推荐 算法 都 建立 在 与 用 户 和 物品 相关 的 数据 上 。 基 于 用 户 的 推荐 算法 的 典型 特征 是 , 它 建立 在 
用 户 间 有 菏 种 相似 性 的 基础 之 上 。 事 实 上 ， 这 种 算法 在 日 党 生活 中 很 常见 。 
4.1.1 推荐 何 时 会 出 错 


你 是 否 曾 收 到 CD 这 样 的 礼物 ” 我 《Sean ) 在 小 时 候 从 好 心 的 成 年 人 那里 收 到 过 。 其 中 一 个 
成 年 人 走 进 当 地 的 首 乐 商 店 并 询问 店员 ,于 是 有 了 下 面 的 场景 : 
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成 年 人 : 我 要 为 一 个 男孩 儿 买 张 CD。 
店 员 : 好 的 ， 他 喜欢 什么 ? 
成 年 人 : 呢 ， 现 在 的 孩子 都 喜欢 些 什 么 ? 
店 员 : 他 喜欢 什么 音乐 或 乐队 呢 ? 
成 年 人 : 对 我 而 言 ， 那 些 都 太 喉 了， 呢 ， 我 不 知道 。 
店 员 : 咽 ， 好 吧 ……… 我 猜 大 多 数 年 轻 人 都 会 购买 New 2 Town 这 个 男生 组 合 的 专辑 。 
成 年 人 : 就 它 了 ! 
结果 可 想 而 知 。 不 用 说 ， 他 们 送 的 礼物 并 非 是 我 想 要 的 。 遗 憾 的 是 ， 这 种 基于 用 户 进 行 推荐 
导 任 出 错 的 事情 比比 丝 是 。 但 这 种 直觉 还 是 对 的 : 因为 年 轻 人 在 首 乐 上 的 品味 通常 比较 接近 ,一 
个 年 轻 人 很 可 能 会 喜欢 其 他 年 轻 人 仍 摊 的 专辑 。 根 据 人 群 之 间 的 相似 度 进行 推荐 是 非常 合理 的 。 
当然 , 推荐 一 个 女孩 儿 们 追捧 的 乐队 专辑 给 男孩 儿 们 可 能 并 不 合适 。 这 里 的 问题 在 于 相似 性 
度量 不 再 有 效 。 是 的 , 一 群 年 轻 人 会 有 相对 一 致 的 品味 : 相对 于 柴 迪 科 舞 (zydeco ) 和 古典 首 乐 ， 
流行 音乐 可 能 更 受 欢 迎 。 但 是 ， 这 种 相似 性 太 脆 弱 而 难以 为 用 : 当 把 首 乐 作为 推荐 对 和 象 时 ， 女孩 
儿 们 与 男孩 儿 们 并 没有 足够 多 的 共性 。 


4.1.2 ”推荐 何 时 是 正确 的 


让 我 们 回 到 前 面 的 场景 ， 来 想象 一 个 更 好 的 情景 : 
成 年 人 : 我 要 为 一 个 男孩 儿 买 张 CD。 
店 员 : 他 喜欢 哪 种 音乐 或 者 乐队 ? 
成 年 人 : 我 不 知道 ， 但 他 最 好 的 朋友 经 常年 一 件 Bowling In Hades 的 T' 虱 。 
店 员 : 我 知道 ,一 个 来 自 克利 夫 兰 的 非常 流行 的 新 金属 乐队 。 我 们 正好 有 
Bowling In Hades 的 最 新 专辑 Jmpossible Split: The Singles 1997-2000，。 
这 次 好 多 了 。 这 个 推荐 基于 这 样 的 假设 , 即 两 个 好 朋友 在 音乐 上 的 品味 会 有 些 类 似 。 相 似 性 
度量 比较 可 徘 时 ， 结 果 就 可 能 会 更 好 。 两 个 好 朋友 都 喜欢 Bowling In Hades 的 可 能 性 比 任意 两 个 
年 轻 人 大 得 多 。 还 有 一 些 其 他 的 途径 能 让 结 采 更 好 : 
成 年 人 : 我 要 为 一 个 男孩 儿 买 张 CD。 
店 员 : 他 喜欢 哪 种 音乐 或 者 乐队 ? 
成 年 人 :“ 彰 乐 ?“， 哈 , 很 好 , 我 从 他 卧室 墙 上 的 海报 里 抄 下 了 乐队 名 。The Skulks、 
Rock Mobster 、Wild Scallions*………: 你 这 里 有 吗 ? 
店 员 : 我 看 看 。 这 些 专 辑 我 的 孩子 也 有 一 些 。 他 总 是 在 不 停 地 谈论 一 些 Diabolical 
Florist 的 新 专辑 ， 那 么 也 许 ……: 
现在 相似 度 的 推 采 直接 来 目 于 对 音乐 的 品味 。 因 为 其 中 所 提 及 的 两 个 孩子 都 喜欢 一 些 相 同 的 
乐队 , 有 理由 相信 和 他们 都 会 喜欢 对 方 的 其 他 收藏 。 这 上 比 基 于 他 们 是 好 朋友 来 猜测 他 们 的 品味 更 为 
可 靠 。 这 种 思路 通过 观察 年 轻 人 对 音乐 的 品味 来 推 其 他 们 之 间 的 相似 度 。 这 是 基于 用 户 的 推荐 系 
统 最 基本 的 逻辑 。 


4.2 ”探索 基于 用 尸 的 推 大 程序 


如 朱 那 两 个 人 继续 谈 下 去 ,可 能 还 会 得 到 更 好 的 推测 。 为 什么 只 根据 一 个 孩子 的 音乐 收藏 来 
挑选 礼物 呢 ? 何 不 多 考虑 几 个 类 似 的 孩子 ”他 们 会 留意 哪些 孩子 更 为 相似 (那些 海报 、T 恤 和 散 
放 在 唱片 机 上 的 CD 大 多 相同 的 ), 还 会 观察 那些 最 相似 的 孩子 部 关注 什么 乐队 ,并 据 此 来 选择 最 
合适 的 礼物 。( 然后 ， 他 们 也 许 会 成 为 Mahout 的 用 户 1 ) 


4.2.1 算法 
基于 用 户 的 推荐 算法 就 来 目 这 各 直觉。 下面 是 一 个 为 用 户 ( 记 为 u ) 进行 推荐 的 过 程 : 
for (用 户 U 尚 未 表达 仿 好 的 ) 每 个 物品 守 
for (对 有 偏好 的 ) 每 个 其 他 用 户 V 
计算 uu 和 V 之 间 的 相似 度 s 
按 权 重 为 s 将 V 对 i 的 偏好 并 入 平均 值 

return 值 最 高 的 物品 ( 按 加 权 平 均 排 序 ) 

外 层 循 环 人 简单 地 把 每 个 已 知 物品 ( 用户 示 对 其 表达 过 偏好 的 ) 作为 候选 的 推荐 项 。 内 层 往 环 
逐个 查看 对 候选 物品 做 过 评价 的 其 他 用 户 , 并 记 下 他 们 对 该 物品 的 偏好 值 。 最 终 , 将 这 些 值 的 加 
权 平 均 作 为 目标 用 户 对 该 物品 偏好 值 的 预测 ,每 个 偏好 值 的 权重 取决 于 该 用 户 与 目标 用 户 之 间 的 
相似 度 。 与 目标 用 户 越 相 似 ， 他 的 偏好 值 所 占 权重 越 大 。 

但 是 , 每 个 物品 都 检查 实在 是 太 慢 了 。 实际 应 用 中 , 通 筑 会 先 计 算出 一 个 最 相似 用 户 的 邻 域 ， 
然后 仅 考 虑 这 些 用 户 评 价 过 的 物品 : 

fozr 每 个 其 他 用 户 w 

计算 用 户 u 和 用 户 w 的 相似 度 S 
按 相 似 度 排 序 后 ， 将 位 置 靠 前 的 用 户 作为 邻 域 了 mn 
for (n 中 用 户 有 偏好 ， 而 口中 用 户 无 偏好 的 ) 每 个 物品 诗 
for (n 中 用 户 对 i 有 偏好 的 ) 每 个 其 他 用 户 V 
计算 用 户 了 和 用 户 V 的 相似 度 s 
按 权 重 s 将 V 对 的 偏好 并 入 平均 值 

这 一 过 程 与 前 面 的 主要 区 别 在 于 首先 确定 相似 的 用 户 , 青 考虑 这 些 最 相似 用 户 对 什么 物品 感 
兴趣 。 这 些 物品 就 成 为 推荐 的 候选 项 。 后续 的 过 程 是 一 样 的 。 这 就 是 标准 的 基于 用 户 的 推荐 算法 ， 
也 是 它 在 Mahout 中 的 实现 方式 。 


4.2.2 ”基于 GenericUserBasedRecommender 实 现 算 法 

本 书 最 早 的 推荐 程序 示例 展示 了 Mahout 中 一 个 实际 的 基于 用 户 的 推 存 程 序 (代码 清单 2-2 )。 
现在 我 们 回顾 一 下 它 的 构成 ， 并 对 它 的 性 能 进行 评 佑 。 
代码 清单 4-1 回顾 一 个 简单 的 基于 用 户 的 推荐 系统 


DataModel model = new FileDataModel (new File{({"intro.csv")); 
UserSimilarity similarity = new PearsonCorrelationSsimilarity (model).; 
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UserNeighborhood neighborhood = 
new NearestNUserNeighborhood (2, similarity, model).; 
Recommender recommender = 
new GenericUserBasedRecommender (model, neighborhood, similarity)}.; 


UserSimilarity 封 要 了 用 户 间 相似 性 的 概念 , 而 UserNeighborhood 封 准 了 最 相似 用 户 组 
的 概念 。 它 们 是 标准 的 基于 用 户 推荐 算法 的 必要 组 件 。 

相似 性 的 定义 不 是 唯一 的 一 一 前 面 选择 CD 的 对 话 反 映 了 在 现实 生活 中 人 们 关于 相似 性 的 
几 种 看 法 。 同 样 ， 最 近邻 用 户 也 有 多 种 不 同 的 定义 : 最 相似 的 5 个 ， 还 是 20 个 ， 还 是 所 有 相似 
度 大 于 某 一 国 值 的 用 户 ” 为 帮助 理解 这 些 选 项 , 想象 一 下 , 假设 你 正在 列 一 个 婚礼 客人 的 清单 。 
你 想 邀 请 最 杀 密 的 朋友 和 家 庭 成 员 出 席 ,， 但 是 你 的 朋友 和 家 人 远 远 超过 预算 允许 的 人 数 。 为 了 
决定 邀请 谁 以 及 不 邀请 谁 ， 你 是 不 是 会 完 定 一 个 人 数 ( 比如 50 人 )， 然 后 来 选择 最 亲近 的 50 个 
朋友 或 家 人 ?50 是 一 个 合适 的 数字 吗 ?40 或 100 怎 么 样 ? 或 者 ， 你 会 邀请 每 一 个 你 认为 很 亲近 
的 人 吗 ? 你 会 仅仅 邀请 真正 的 好 朋友 吗 ?” 谁 会 让 你 的 婚礼 派对 非常 成 功 ? 选择 用 户 邻 域 与 此 
类 似 。 

引入 新 的 相似 性 度量 ,结果 就 会 发 生 显 闭 变 化 。 由 此 可 知 ， 提供 推 荐 的 方式 是 多 种 多 样 的 一 
一 而 这 还 只 是 调整 了 方法 的 一 个 侧面 。Mahout 是 由 多 个 组 件 混搭 而 成 的 ， 而 非 单一 的 推荐 引擎 ， 
其 各 个 组 件 的 组 合 可 以 定制 ， 从 而 针对 特定 应 用 提供 理想 的 推荐 。 通 第 包括 如 下 组 件 : 

口 数据 模型 ， 由 DataMode1 实 现 ; 

口 用 户 间 的 相似 性 度量 ， 由 Usersimilarity 实 现 ; 

口 用 户 邻 域 的 定义 ， 由 UserNeighborhood 实 现 ; 

国 | 推荐 引擎 ， 由 一 个 Recommender 实 现 ( 此 处 为 CenericUserBasedRecommender )。 


有 要 想 推 存 得 更 好 更 快 ， 就 必然 需要 经 历 一 个 漫长 的 试验 和 调 优 过 程 。 


4.2.3 ”尝试 GroupLens 数 据 集 


让 我 们 回 到 GroupLens 数 据 集 ， 并 将 所 用 数据 增加 100 倍 。 到 http:/grouplens.org 下 载 包含 1000 
万 个 评分 的 MovieLens 数 据 集 ， 目 前 它 可 以 从 地 址 http:/www.grouplens.org/node/73 获 得 。 在 本 地 
解压 后 找到 其 中 的 ratings.dat 文 件 。 

出 于 某 种 原因 ， 该 数据 的 格式 有 别 于 之 前 的 100 000 评 分 数据 集 。 其 中 ua.base 文 件 可 直接 用 
于 FileDataModel， 但 该 数据 集 的 ratings.dat 文 件 则 不 能 。 人 简单 的 做 法 是 使 用 标准 的 命令 行文 本 
处 理工 具 将 其 转换 为 逗 所 分 隔 的 形式 ， 通 稼 这 也 是 最 好 的 办 法 。 专 门 编写 代码 来 转换 文件 格式 ， 
或 使 用 定制 的 pataMode1l， 这 不 仅 烦 开 而 且 容 易 出 错 。 

幸运 的 是 ， 针 对 这 个 特例 "还 有 一 个 更 简单 的 办 法 。Mahout 的 示例 模块 ( examples ) 包含 
了 一 个 定制 的 GroupLensDataModqe1 实 现 它 扩 展 了 FileDataModel 以 读 取 这 个 文件 四 你 需要 
确保 这 个 代码 在 IDE 项 目的 examples/src/java/main 目 录 下 。 然 后 ， 如 代码 清单 4-2 所 示 的 内 容 蔡 换 


FileDataModel, 


OQ 仅 针 对 Gouplens 数 据 集 。 一 一 译 者 注 


38 第 4 章 进行 推荐 


代码 清单 4-2 更 新 代码 清单 4-1 来 使 用 为 GroupLens 定 制 的 DataModel 
DataModel model = new GroupLensDataModel (new Filel("ratings.dat"))}); 
UserSimilarity similarity = new PearsonCorrelationSimilarity (model}): 


UserNeighborhood neighborhood = 
new NearestNUserNeighborhoocod(100, similarity, model):; 


Recommender recommender = 
new GenericUserBasedRecommender {model, neighborhood, similarity):; 


LoadEvaluator.runLoad (recommender).: 

运行 这 段 代码 ， 首先 遇 到 的 问题 可 能 是 outo fMemoryError,o 在 这 里 我 们 第 一 次 碰 到 了 了 
规模 问题 。 默 认 情 况 下 ，Java 不 会 把 堆 (heap ) 大 小 设 得 过 大 。 而 这 里 ， 必 须 增加 Java 可 用 的 
堆 空 间 。 

这 是 一 个 探讨 如 何 调节 JVM 来 改善 性 能 的 好 机 会 。 可 参考 附录 A 更 深入 地 了 解 JVM 调 优 。 


4.2.4 ”探究 用 尸 邻 域 

下 面 我 们 来 评估 推荐 程序 的 精度 。 代 码 清 单 4-3 再 次 给 出 了 评估 代码 示例 ; 在 此 之 后 ， 我 们 
会 认为 你 已 经 对 它 有 了 充分 的 了 解 ， 并 可 以 独立 构造 和 进行 评估 。 

现在 ,我们 尝试 配置 并 调整 该 邻 域 的 实现 ， 如 下 面 的 代码 清单 所 示 。 记 住 ， 这 里 使 用 的 数据 
同样 多 出 了 100 倍 。 
代码 清单 4-3 ”对 这 个 简单 的 推荐 3 引擎 进行 评估 


DataModel model = new GroupLensDataModel (new Filel("ratings.dat")); 


RecommenderEvaluator evaluator = 
new AverageAbsoluteDifferenceRecommenderEvaluator (); 
RecommenderBullder recommenderBulilder = new RecommenderBuilder{() 1 


QOverride 
public Recommender buildRecommender ( 
DataModel model) throws TasteException 1{ 
UserSimilarity similarity = new PearsonCorrelationSimilarity (model).; 


UserNeighborhood neighborhood = 
new NearestNUserNeighborhood(100, similarity, model); 
return new GenericUserBasedRecommendert 
model, neighborhood, similarity); 


} 
}; 
double Score = evaluator,.evaluate!l 
recormmenderBuilder, null, model, 0.95, 0.05}).，: 


System.out.printlnlscore); 

注意 ，evaluate () 的 最 后 一 个 参数 是 0.05。 这 意味 着 仅 有 5% 的 数据 用 于 评 佑 。 这 纯粹 是 为 
了 方便 ; 评 佑 是 一 个 耗 时 的 过 程 ， 使 用 全 部 数据 会 花 上 几 个 小 时 。 为 了 快速 评 佑 变化， 比较 简便 
的 做 法 是 减 小 这 个 值 。 但 是 使 用 的 数据 太 少 可 能 会 影响 到 评 佑 结 末 的 精度 。 人 参数 0.95 就 是 说 使 用 
95% 的 数据 来 构建 要 评估 的 模型 ， 然 后 使 用 余下 的 5% 来 做 测试 。 

代码 运行 所 得 到 的 结果 可 能 会 有 出 入 ， 但 约 为 0.89。 
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4.2.5 ”固定 大 小 的 邻 域 


此 时 ,代码 清单 4-3 中 代码 所 给 出 的 推 茬 来 日 于 100 个 最 相似 用 户 构 成 的 邻 域 ( Nearest- 
NUserNeighborhood 人 外 设 为 邻 域 大 小 100 )。 推 荐 所 依赖 的 最 相似 用 户 为 100 个 ， 这 个 选择 是 随 
意 的 。 如果 选 择 10 个 会 怎么 样 ” 推荐 所 依赖 的 相似 用 户 虽 然 少 了 , 但 也 会 排除 一 些 相似 度 较 低 的 
用 户 。 包 含 3 个 最 相似 用 户 的 邻 域 如 图 4-1 所 示 。 


1 
、 4 


图 4-1 通过 确定 最 相似 用 户 的 数量 来 定义 用 户 的 邻 域 。 这 里 ， 距 离 表 示 相 似 度 : 
越 远 则 越 不 相似 。 用 户 1 的 邻 域 由 3 个 最 相似 的 用 户 组 成 : 5S、4 和 2 


尝试 用 10 来 蔡 代 100。 推 荐 的 评估 结果 ， 即 估计 值 与 实际 偏好 值 的 平均 差异 ， 为 0.98 左 右 。 
考虑 到 这 一 评估 值 越 大 越 不 好 ， 这 意味 者 选 错 方 品 了 了。 最 可 能 的 解释 是 10 个 用 户 太 少 了 。 很 可 能 
后 面 的 用 户 会 有 价值 ， 如 最 相似 的 第 11 个 、 第 12 个 用 户 等 。 他 们 不 仅 仍 有 很 大 的 相似 度 ， 而 且 可 
能 会 关联 到 前 10 个 用 户 没有 涉及 的 一 些 物品 。 

尝试 500 个 用 户 的 邻 域 ;结果 降 为 0.75， 这 个 结果 自然 较 优 。 你 可 以 多 试 一 些 值 来 为 这 个 数 
据 集 找 到 最 佳 选项 , 但 事实 上 并 不 存在 一 个 万 能 的 值 ; 在 真实 数据 上 做 一 些 试验 对 推荐 程序 的 调 
优 来 说 是 很 必要 的 。 


4.2.6 ”基于 阅 值 的 邻 域 


假如 不 想 用 n 个 最 相似 用 户 构 建 邻 域 ， 那 么 如 何 下 接 选 择 那 些 很 类 似 的 用 户 并 忽略 其 他 人 
呢 ? 你 可 以 确定 一 个 相似 度 国 值 ， 并 选择 所 有 相似 度 超过 这 个 国 值 的 用 户 。 图 4-2 展 示 了 一 个 基 
于 国 值 的 用 户 邻 域 定 义 ， 你 可 将 其 与 图 4-1 中 的 固定 大 小 的 邻 域 相对 照 。 


图 4-2 ”通过 一 个 相似 度 国 值 来 定义 最 相 亿 用户 的 邻 域 


40 第 4 草 进行 推荐 


国信 应 该 设 在 -1 和 1 之 间 ， 因 为 所 有 的 相似 性 度量 返回 的 相似 度 值 都 在 该 区 间 内 。 目 前 ,我 
们 的 示例 使 用 标准 的 皮尔 逊 相关 系数 作为 相似 性 的 度量 标准 。 熟悉 这 种 相关 方法 的 读者 应 该 知道 
0.7 及 以 上 的 介意 味 着 高 度 相 关 , 可 作为 非常 相似 的 一 个 合理 定义 。 让 我 们 改 用 ThresholdUser- 
Neighborhood。 和 人 简单 地 修改 一 行 来 实例 化 ThresholdUserNeighborhood: 


new ThresholdUserNeighborhood(0.7, similarity, model) 

现在 评 佑 程序 给 推荐 程序 的 评分 为 0.84。 如 打 更 严格 的 限定 国 值 ， 使 用 0.9 会 如 何 ” 评分 为 
0.92， 即 性 能 更 差 了 ; 前 面 的 解释 同样 适用 于 此 处 一 一 此 国 值 限定 的 邻 域 包含 的 用 户 数 太 少 。 如 
果 设 为 0.5 呢 ?评分 变 好 了 ， 可 降 至 0.78。 后 面 的 示例 会 将 这 种 邻 域 的 国 值 设 为 0.5。 

现在 , 你 可 能 想 在 真实 数据 上 尝试 更 多 的 国 值 以 得 到 一 个 最 优 结 来 , 不 过 我 们 通过 简单 的 试 
验 已 经 将 估计 精度 提高 了 大 约 15%。 


4.3 ”探索 相似 性 度量 


基于 用 户 的 推荐 程序 的 男 一 个 重要 部 分 是 Usersimilarity 实 现 。 基于 用 户 的 推荐 程序 非常 
依赖 这 个 组 件 。 如 果 对 用 户 之 间 的 相似 性 缺乏 可 靠 并 有 效 的 定义 ， 这 类 推荐 方法 是 没有 意义 的 。 
这 也 适用 于 基于 用 户 的 推荐 程序 的 “近亲 ”一 一 基于 物品 的 推荐 程序 ， 它 同样 依赖 于 相似 性 。 这 
一 组 件 十 分 重要 , 我 们 将 用 接近 本 章 1/3 的 篇 幅 来 讨论 标准 的 相似 性 度量 及 其 在 Mahout 中 的 实现 。 


4.3.1 基于 皮尔 逊 相关 系数 的 相似 度 


到 目前 为 止 ， 示例 都 使 用 了 PearsoncortrelLationsimilaritvy 这 一 实现 ， 它 是 一 个 基于 皮 
尔 逊 相关 系数 的 相似 性 度量 标准 。 

皮尔 逊 相关 系数 是 一 个 介 于 -1 和 1 之 间 的 数 ， 它 度量 两 个 一 一 对 应 的 数列 之 间 的 线性 相关 程 
度 。 也 就 是 说 , 它 表 示 两 个 数列 中 对 应 数字 一 起 增 大 或 一 起 减 小 的 可 能 性 。 它 度量 数字 一 起 按 比 
例 改 变 的 倾向 性 ， 也 就 是 说 两 个 数列 中 的 数字 存在 一 个 大 人 致 的 线性 关系 。 当 该 倾 丫 性 强 时 ， 相关 
值 趋 于 1。 当 相关 性 很 弱 时 ,相关 值 趋 于 0。 在 负 相 关 的 情况 下 一 一 一 个 序列 的 值 高 而 为 一 个 序列 
的 值 低 一 一 相关 值 趋 于 -1。 


注意 ”对 于 熟悉 统计 学 的 读者 而 言 ， 皮 尔 逊 相关 系数 是 两 个 序列 协 方差 与 二 者 方差 乘积 的 比值 。 
协 方 差 计 算 的 是 两 个 序列 变化 趋势 一 致 的 绝对 量 。 当 两 个 序列 相对 于 各 自 的 均值 点 向 同 
一 方向 移动 得 越 远 ， 协 方差 值 就 越 大 。 除 以 方差 则 是 为 了 对 这 一 变化 进行 归 一 化 。 使 用 
Mahout 中 的 皮尔 逊 相 关系 数 并 不 需要 理解 这 些 定 义 ， 但 如 果 你 有 兴趣 ， 可 以 从 网 络 上 找 
到 大 量 相关 信息 。 


这 一 统计 学 中 广泛 使 用 的 概念 ,同样 可 以 用 于 度量 用 户 之 间 的 相似 性 。 它 度量 两 个 用 户 针对 
同一 物品 的 偶 好 值 变 化 趋 抒 的 一 致 性 一 一 都 念 遍 或 都 俩 低 。 举 个 例 于 ,再 看 看 我 们 用 过 的 第 一 个 
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样本 数据 文件 intro.csv， 如 下 所 示 。 
代码 清单 4-4 ”一 个 人 简单 的 推荐 系统 输入 文件 


1,101,5.0 
1,102,3.0 
1,103.,2.5 
2,101,2.0 
2,102,2.5 
2,103,5.0 
2,104,2.0 
SiO0Lr2 so 
3,104,4.0 
3,105,4.5 
3,107,5.0 
4,101,5.0 
4,103,3.0 
4,104,4.9 
4,106,4.0 
5,101,4.0 
5,102,3.0 
Dy ds 
5,104,4.0 
Dy L054. 3 5 
5,106,4.0 


我 们 注意 到 用 户 1 和 5 看 起 来 相似 ， 因 为 他 们 的 偏好 值 好 像 在 一 同 改变 。 对 于 物品 101、102 
和 103， 他 们 大 体 达 成 一 致 : 101 最 好 ，102 略 差 ， 而 103 不 理想 。 类 似 地 ， 用 户 1 和 用 户 2 则 不 那么 
相似 。 注意 我 们 关于 用 户 1 的 分 析 不 包括 物品 104 ~ 106， 因 为 用 户 1 对 它们 的 偏好 是 未 知 的 。 相 似 
度 的 计算 仪 能 在 用 户 都 表达 了 偏好 的 物品 上 进行 。( 在 4.3.9 站 ， 我 们 将 看 到 缺失 侯 好 值 的 时 候 该 
怎么 进行 推测 。) 

皮尔 逊 相关 系数 可 表达 这 些 相 似 性 ， 如 表 4-1 所 示 。 这 里 不 再 重复 计算 的 细节 ; 可 参考 在 线 
资源 ， 如 http:/www.socialresearchmethods.netkb/statcorrphp， 了 解 相关 系数 计算 的 说 明 。 


表 4-1 在 用 户 1 和 其 他 用 户 之 间 基 于 3 个 共有 物品 的 皮尔 逊 相 天 系数 


物品 101 物品 102 物品 103 与 用 户 1 的 相关 性 
用 户 1 5.0 3.0 2.5 1.000 
用 户 2 2.0 2 5 5.0 -0.764 
用 户 3 2 一 过 
用 户 4 5.0 3.0 1.000 
用 户 5 4.0 3.0 2.0 0.945 


* 用 户 与 其 自身 的 皮尔 逊 相关 系数 总 是 1.0。 


4.3.2 ”皮尔 逊 相 关系 数 存 在 的 问题 


尽管 结果 很 直观 ， 但 某 些 情况 下 皮尔 逊 相关 系数 在 推荐 引擎 中 的 表现 会 有 点 奇怪 。 
首先 ， 它 没有 考虑 两 个 用 户 同 时 给 出 伍 好 值 的 物品 数目 ,在 推荐 引擎 中 这 可 能 不 太 可 靠 。 便 
如 ， 两 个 看 过 200 部 相同 电影 的 用 户 ， 即 便 他 们 给 出 的 评分 偶尔 不 一 致 ， 但 可 能 要 比 两 个 仅 看 过 
两 部 相同 电影 的 用 户 更 相似 。 这 在 之 前 的 数据 中 有 所 体现 ; 注意 , 用 户 1 和 5 对 三 个 共同 物品 表达 
了 偏好 ， 他 们 的 品位 看 似 比 较 相 近 。 但 是 ， 用 户 1 和 4 的 交集 仪 包含 两 个 物品 ， 却 得 到 了 1.0 这 个 
更 高 的 相关 值 。 这 有 点 不 符合 常规 。 
其 次 ， 基 于 该 计算 的 定义 ， 如 果 两 个 用 户 的 交集 仅 包 含 一 个 物品 ， 则 无 法 计算 相关 性 。 这 也 
是 没有 计算 用 户 1 和 3 之 间 相 关 性 的 原因 。 在 小 的 或 稀 玻 的 数据 集 上 ， 这 个 问题 就 会 凸现 出 来 ， 
为 其 中 用 户 的 物品 集 很 少 重 毒 。 当 然 , 这 可 能 也 是 一 种 优点 : 直观 上 讲 ， 如 果 两 个 用 户 的 交集 仅 
有 一 个 物品 的 话 ， 他 们 可 能 并 不 太 相 似 。 
最 后 ， 只 要 任何 一 个 序列 中 出 现 偏好 值 相 同 的 情况 ”， 相 关系 数 都 是 未 定义 的 (undefined )。 
这 种 情况 并 不 需要 两 个 序列 中 的 偏好 值 都 完全 一 样 。 例 如 ， 奉 用 户 5 对 所 有 三 个 物品 的 偏好 值 都 
是 3.0， 即 使 用 户 1 有 3.0 以 外 的 偏好 值 ， 也 无 法 计算 用 户 1 与 用 户 5 之 间 的 相似 度 ( 因为 皮尔 了 还 相 关 
系数 将 是 未 定义 的 )。 这 一 问题 同样 很 可 能 出 现在 两 个 用 户 的 偏好 交集 很 小 的 情形 。 
QD) 尽管 皮尔 逊 相 关系 数 在 早期 关于 推荐 系统 的 论文 中 很 常见 ”， 并 且 在 很 多 介绍 推荐 系统 的 书 
No.4 中 被 提 及 ,但 它 未 必 是 最 优 的 。 当 然 ， 它 也 并 不 差 ; 你 只 需要 理解 它 是 如 何 工 作 的 。 


4.3.3 引入 权重 


为 了 解决 上 述 问题 ， PearsonCorrelationSimilarity 在 标准 计算 公式 的 基础 上 提供 了 一 
个 扩展 ， 即 加 权 ( weighting )。 

皮尔 还 相关 系数 并 不 下 接 反 映 其 用 到 的 物品 数目 ,而 我 们 是 需要 这 个 数字 的 。 考虑 的 信息 越 
多 ， 所 得 的 相关 结果 就 越 可 靠 。 为 了 体现 这 一 观点 ， 最 好 在 基于 较 多 物品 计算 相关 系数 时 ， 使 正 
相关 值 上 器 1.0 偏 移 ， 而 使 负 相 关 值 癌 -1.0 仿 移 。 或 者 ， 当 基于 较 少 的 物品 计算 相关 系数 时 ， 可 以 让 
相关 值 癌 偏好 值 的 均值 偏 移 ; 这 与 前 面 的 效果 类 似 , 但 实现 会 较为 复杂 ， 因 为 它 需 要 记录 用 户 对 
的 平均 偏好 值 。 

在 代码 清单 4-3 中 ， 将 值 weighting.WEIGHTED 作 为 第 二 个 参数 传递 给 Pearson- 
CorrelationSimilarity 的 构造 多 数 即 可 实现 上 述 方法 。 它 会 根据 计算 相关 系数 所 用 的 数据 点 
数 , 使 偏好 值 品 1.0 或 -1.0 偏 移 。 在 这 种 情况 下 ， 重新 运行 前 面 的 评估 程序 ,可 以 看 到 分 值 有 所 改 
善 ， 变 为 0.77。 


J 此 时 该 序列 方差 为 0， 导 致 皮尔 逊 相关 系数 计算 公式 中 的 分 母 为 0。 一 一 译 者 注 

@) 附录 C 列 出 了 一 些 相 关 文 献 。 可 重点 参考 Breese、Heckerman 、Kadie 的 “Empirical Analysis of Predictive Algorithmas 
for Collaborative Filtering” 以 及 Herlocker 、Konstan 、Borchers 和 Riedl 的 “An Algorithmic Framework for Performing 
Collaborative Filtering” 这 两 篇 文章 。 
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4.3.4 基于 欧 氏 距离 定义 相似 度 


下 面 让 我 们 尝试 使 用 EuclideanDistanceSimilarity 一 一 将 代码 清单 4-3 中 Usersimilarity 的 
实现 改 为 new EuclideanDistanceSimilarity (model) 即 可 。 

这 一 实现 基于 用 户 之 间 的 距离 。 你 可 以 将 用 户 想 象 成 多 维 空间 中 的 点 ( 维 数 等 于 上 总 的 物品 
数 )， 偏 好 值 是 坐标 。 这 种 相似 性 度量 计算 两 个 用 户 点 之 间 的 欧 氏 距离 4*。 这 个 值 本 身 并 不 代表 
相似 度 ， 因 为 该 值 越 大 表示 距离 越 还 ,也 就 是 说 两 个 用 户 越 不 相似 。 用 户 越 相 似 ， 这 个 值 应 该 越 
小 。 因 此 ， 实 际 应 用 中 取 1(1+4q) 为 相似 度 。 表 4-2 展 示 了 一 些 示 例 。 可 以 证 明 ， 距 离 为 0 ( 用 户 间 
的 俩 好 完全 相同 ) 时 ， 它 的 结果 为 1， 而 随 者 4 的 增加 ， 会 逐渐 递减 为 0。 这 种 相似 性 度量 不 会 返 
回 负 数 ， 而 且 信 越 大 表示 相似 度 越 高 。 


表 4-2 ”用户 1 与 其 他 用 户 之 间 的 欧 氏 距离 及 所 得 到 的 相似 度 评 分 


物品 101 物品 102 物品 103 距离 与 用 户 1 的 相似 度 
用 户 1 5.0 3.0 2.5 0.000 1.000 
用 户 2 2.0 2 5.0 3.937 0.203 
用 户 3 2.5 二 过 2.500 0.286 
用 户 4 5.0 二 3.0 0.500 0.667 
用 户 5 4.0 3.0 2.0 1.118 0.472 


在 代码 清单 4-3 改 用 EucliaqeanDistanceSsimilarity 后 ， 得 到 结果 0.7$; 比 之 前 强 一 点 ， 
但 差别 不 大 。 注 意 这 里 可 以 计算 出 任何 用 户 之 间 的 相似 度 ， 而 皮尔 逊 相关 系数 丈 无 法 得 出 用 户 1 
与 用 户 3 之 间 的 相似 度 。 这 算是 欧 氏 距离 的 一 个 优点 ， 但 是 根据 一 个 共同 物品 得 到 的 结 采 并 不 可 
徘 。 基于 欧 氏 距离 的 实现 同样 可 能 得 出 一 些 与 耳 觉 不 符 的 结果 : 用 户 1 和 用 户 4 之 间 的 相似 度 高 于 
用 户 1 和 用 户 5。 


4.3.5 ”采用 余 缀 相似 性 度量 


余弦 相似 性 度量 ( cosine measure similarity ) 也 将 用 户 偏 好 值 视 为 空间 中 的 点 ， 并 基于 此 进 
行 相似 性 度量 。 你 需要 将 用 户 偏 好 值 视 为 n 维 空间 中 的 点 。 现 在 ,假设 有 两 条 从 原点 一 一 或 者 说 
(0,0,…,0) 一 一 出 发 ， 分别 到 这 两 个 点 的 射线 。 如 果 两 个 用 户 相 似 ， 则 他 们 的 打分 也 相似 ， 也 就 是 
说 他 们 的 空间 位 置 是 很 接近 的 ,这 样 一 来 ,至 少 这 两 条 射线 的 方向 也 会 差不多 ,两 条 射线 之 间 的 
夹 角 会 比较 小 。 反 之 ， 如 果 两 个 用 户 不 相似 ， 则 相应 的 两 个 点 会 相 隅 较 远 ， 从 原点 到 这 两 点 的 射 
线 很 有 可 能 指 回 不 同 的 方向 ， 形 成 的 夹 角 会 比较 大 。 

与 欧 氏 距 离 类 似 ， 这 个 夹 角 同样 可 以 用 来 度量 相似 性 。 在 这 种 情况 下 , 夹 角 余 区 代表 相似 度 
值 。 如 有 果 你 对 三 角 吨 数 不 熟 悉 ， 那 么 记 住 这 点 就 行 了 : 余 艾 取 值 范围 在 -1 到 1 之 间 ， 小 的 夹 角 余 
六 接近 1， 大 的 夹 角 (接近 180? ) 余弦 接近 -1。 这 个 性 质 很 好 ， 因 为 小 的 夹 角 映射 到 了 较 高 的 相 


回忆 一 下 ， 欧 氏 距 离 就 是 各 维 坐标 之 差 的 平方 和 的 平方 根 。 
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似 度 值 ， 趋 于 1， 而 大 的 夹 角 则 映射 到 -1 附近 。 

你 可 能 试图 在 Mahout 中 寻找 类 似 cosineMeasureSimilarity 的 东西 ， 但 实际 上 它 已 经 以 
一 个 意料 之 外 的 名 字 出 现 过 了 : PearsonCorrelationSimilarityo 余弦 相似 性 度量 与 皮尔 进 
相关 系数 并 不 是 同一 个 东西 , 但 如 果 有 了 耐心 做 一 些 数学 推理 , 你 会 发 现 当 两 个 输入 序列 均值 痢 为 
0 (中 心 化 ) 时 ,它们 归结 为 同一 个 计算 过 程 。 因 为 在 Mahout 实 现 中 会 将 输入 中 心 化 ， 因 此 这 两 
个 度量 标准 就 变 成 一 样 的 了 。 

余弦 相似 性 度量 在 协同 过 小 中 经 和 常 出 现 。 你 可 以 简单 地 通过 PearsonCorrelationSimilarity 
来 使 用 这 一 相似 性 度量 。 


4.3.6 ”采用 斯 皮尔 曼 相 关系 数 基 于 相对 排名 定义 相似 度 


对 于 我 们 来 说 , 斯 皮尔 曼 相关 系数 是 皮尔 逊 相关 系数 的 一 个 有 趣 的 变 体 。 该 相关 系数 并 非 基 
于 原始 的 偏好 值 ， 而 是 基于 偏好 值 的 相对 排名 来 计算 。 想 象 一 下 ,对 于 每 个 用 户 来 说 ， 他 们 偏好 
值 最 低 的 物品 的 仿 好 值 被 改 为 1。 仿 好 值 次 低 的 物品 偏好 值 被 改 为 2， 以 此 类 推 。 类似 于 你 对 电影 
进行 打分 ， 给 最 不 喜欢 的 电影 一 颗 星 ， 次 不 喜欢 的 电影 两 颗 星 ， 以 此 类 推 。 然 后 ， 在 变换 后 的 偶 
好 值 上 计算 皮尔 人 进 相 关系 数 ， 这 束 是 斯 皮尔 曙 相 关系 数 。 

这 个 过 程 丢 挥 了 一 些 信息 。 尽 沁 它 保留 了 偏好 值 最 本 质 的 东西 一 一 它们 的 顺序 , 但 它 最 终 也 
丢掉 了 用 户 对 不 同 物品 喜好 程度 的 具体 差异 。 很 难说 它 是 或 不 是 一 个 好 办 法 ; 它 介 于 保留 原始 偏 
好 值 和 将 它们 完全 丢人 莽 之 间 一 一 这 两 种 情况 我 们 部 已 经 讨论 过 了 。 

表 4-3 中 是 一 些 斯 皮尔 曼 相关 系数 的 计算 结 来 。 在 这 个 已 经 很 位 单 的 数据 集 上 ， 它 本 号 的 简 
单 性 导致 了 一 些 很 极 闯 的 值 : 事实 上 ， 这 里 所 有 的 相关 系数 部 为 1 或 1， 依赖 于 该 用 户 与 用 户 1 
仿 好 值 的 变化 趋 女 是 否 一 怪 。 与 皮尔 人 进 相 关系 数 一 样 ， 用 户 1 和 用 户 3 之 间 没 有 相似 度 值 。 


表 4-3 ”将 仿 好 值 变 为 排名 ， 并 得 到 用 尸 1 与 其 他 用 户 之 间 的 斯 皮尔 曼 相 天 系数 


物品 101 物品 102 物品 103 与 用 户 1 的 相似 度 
用 户 1 3.0 2.0 1.0 a 
用 户 2 1.0 2.0 3.0 = 
用 户 3 1.0 可 本 本 
用 户 4 2.0 二 1.0 1.0 
用 户 5 3.0 2.0 1.0 1.0 


该 方法 由 spearmanCorrelationsimiLlaritvy 实 现 。 跟 前 面 一 样 ， 你 要 将 它 放 在 评估 代码 
中 作为 Usersimilarity 使 用 。 运 行程 序 之 后 ， 就 可 以 去 喝 杯 咖 啡 休息 一 下 。 如 果 天 黑 了 就 上 床 
睡觉 。 它 不 会 很 快运 行 结束 的 。 这 个 实现 非 筑 慢 ,因为 它 需 要 做 一 些 烦 琐 的 工作 来 计算 并 存储 排 
序 结 朱 。 基 于 斯 皮尔 受 相 关系 数 的 相似 性 度量 计算 量 很 大 ， 因 此 学 术 价值 大 于 实用 价值 。 当 然 ， 
它 对 于 一 些小 规模 的 数据 集 可 能 很 有 效 。 

四 此 机 会 正 好 介 绍 一 下 Mahout 的 绥 存 封 站 机 制 o CachingUserSimilarity J 
UserSimilarity 的 一 各 实现, 它 封 装 了 男 一 个 Usersimilarity 的 实现 并 缓存 其 结果 ,也 就 是 
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说 它 利 用 夯 一 个 实现 进行 计算 ， 并 将 得 到 的 结 采 进行 内 部 缓存。 然后 ， 当 需要 提供 一 个 已 经 计算 
过 的 用 户 间 相 似 度 时 ,， 它 就 可 以 直接 返回 ， 而 不 需要 该 实现 重新 进行 计算 。 你 可 以 用 这 个 办 法 为 
任何 相似 性 度量 的 实现 添加 绥 存 功能 。 当 计算 的 代价 很 高 时 〈 例 如 在 这 里 )， 引 入 这 种 机 制 是 值 
得 的 。 当 然 ， 绥 人 存 也 有 代价 ， 它 会 消耗 内 存 。 

试 试 将 spearmanCorrelationSimilarity 替 换 为 下 面 的 实现 。 


代码 清单 4-5 ”为 UserSimilarity 实 现 引 入 缓存 机 制 
UserSimilarity similarity = new CachingUserSimilarity!l 
new SpearmanCorrelationsimilarity (model), model),; 


建议 将 evaluate () 国 数 的 trainingPercentage 从 0.95 升 到 0.99， 从 而 让 测试 数据 的 规模 
从 5% 减 为 1%。 将 最 后 一 个 参数 从 0.05 降 为 0.01， 从 而 将 评 佑 比例 从 5% 减 为 1% 也 不 失 为 一 个 好 办 
法 ”"。 这 样 一 来 ， 评 佑 过 程 可 以 在 大 约 几 十 分 钟 内 结束 。 

结果 可 能 在 0.80 左 右 。 同 样 ， 这 种 相似 性 度量 方法 的 优 劣 很 难 一 概 而 论 ， 但 在 这 个 特定 的 数 
据 集 上 ， 它 不 如 其 他 相似 性 度量 方法 有 将。 


4.3.7 忽略 偏好 值 基于 谷 本 系数 计算 相似 度 


有 趣 的 是 , 还 存在 一 些 完全 抛 开 偏好 值 的 Usersimilarity 实 现 。 它 们 不管 一 个 用 户 对 一 个 
物品 的 偏好 值 是 高 还 是 低 ， 只 关心 用 户 是 否 表达 过 偏好 。 正 如 我 们 在 第 3 章 讨 论 过 的 ， 忽 略 仿 好 
值 并 不 会 有 太 大 影响 。 

TanimotocoefficientSsimiLarity 了 驶 是 这 样 一 个 实现 ， 它 基于 谷 本 系数 。 这 个 值 也 叫做 
Jaccard 系 数 。 它 是 由 两 个 用 户 共同 表达 过 偶 好 的 物品 数目 除 以 至 少 一 个 用 户 表 达 过 俩 好 的 物品 妆 
目 而 得 。 如 图 4-3 所 示 。 


用 局 2 地 用 局 1 埠 达 过 
偏好 的 物品 ; 偏好 的 物品 


图 4-3” 谷 本 系数 是 两 个 用 户 各 自 表达 过 偏好 的 两 个 物品 集合 的 交集 ， 即 重 全 区 
域 ( 深 色 区 域 ) 的 大 小 ， 与 并 集 ( 深 色 和 浅 色 区 域 ) 大 小 的 比值 
换 句 话说 ， 它 是 两 个 俩 好 物品 集合 的 交集 大小 与 并 集 大 小 的 比值 。 它 有 如 下 性 质 : 当 两 个 用 
户 的 偏好 集合 完全 重合 时 , 结果 为 1.0。 当 他 们 没有 任何 共同 点 时 , 结 来 为 0.0。 结 末 永远 不 会 为 负 ， 


QD 前 者 调节 各 个 用 户 俩 好 值 中 用 来 训练 的 比例 ， 后 者 调节 用 于 评估 的 用 户 数量 。 一 一 译 者 注 


46 第 4 章 ”进行 推荐 


但 也 没有 关系 。 用 一 些 简单 的 数学 变换 就 可 以 把 结果 变换 到 -1 到 1 之 间 : 相似 度 =2 x 相似 度 -1。 
对 于 整个 框 肛 来 说 ， 这 不 会 有 太 大 影 啊 。 
表 4-4 列 出 了 用 户 1 与 其 他 用 户 之 间 的 一 些 基 于 谷 本 系数 的 相似 度 值 。 
表 4-4 ”基于 谷 本 系数 计算 得 到 的 用 户 1 与 其 他 用 忆 之 间 的 相似 度 值 。 注 意 偶 好 值 
本 身 被 忽略 了 ， 因 为 计算 过 程 并 没有 用 到 它们 
物品 101 ”物品 102 ”物品 103 ”物品 104 ”物品 105 ”物品 106 ”物品 107 ”与 用 户 1 的 相似 度 


用 户 1 x x x 1.0 
用 户 2 x x x x 0.75 
用 户 3 x x x x 0.17 
用 户 4 x x x x 0.4 
用 户 5 x x x x x x 0.5 


注意 这 一 相似 性 度量 并 不 仅 仪 取决 于 用 户 共 同 表达 过 仿 好 的 物品 , 它 同 时 也 需要 考虑 仅 有 一 
个 用 户 表 达 过 仿 好 的 物品 。 因 此 ， 跟 前 面 不 同 ， 所 有 的 7 个 物品 都 出 现在 计算 过 程 中 。 

当日 仪 当 偏 好 值 为 布尔 值 或 者 根本 没有 仿 好 值 可 用 时 , 你 才 需 要 用 到 这 一 度量 方法 。 如 果 有 
偏好 值 ， 而 有 旦 偏好 值 中 除了 只 声 还 有 更 多 的 信息 , 或许 你 也 会 使 用 这 一 方法 。 但 是 ， 此 时 使 用 那 
些 基于 具体 偏好 值 的 度量 方法 往往 效果 会 更 好 。 在 GroupLens 数 据 集 上 ， 使 用 谷 本 系数 后 分 值 变 
大 一 些 ， 上 升 至 0.82。 


4.3.8 ”基于 对 数 似 然 比 更 好 地 计算 相似 度 


尽管 看 起 来 不 像 ， 但 基于 对 数 似 然 比 的 相似 度 ( Log-likelihood-based similarity ) 实际 上 类 似 
于 基于 舍 本 系数 的 相似 度 。 它 是 为 一 种 不 考虑 具体 偏好 值 的 度量 方法 。 计算 这 一 相似 度 所 需要 的 
数学 知识 已 经 超出 了 本 书 的 讲述 范围 。 与 谷 本 系数 类 似 , 它 也 基于 两 个 用 户 共同 评估 过 的 物品 数 
目 ， 但 在 给 定 物品 总 数 和 每 个 用 户 评价 物品 数量 的 情况 下 ， 其 最 终结 果 衡量 的 是 两 个 用 户 “ 有 这 
么 多 共同 物品 的 “不 可 能 性 ”。 

考虑 两 个 电影 爱好 者 ,各自 都 看 了 一 些 电 影 ， 也 给 出 了 评分 , 但 仪 仪 有 《星球 大 战 》 和 《 卡 
防 布 兰 卡 》 这 两 部 是 其 共同 看 过 的 。 他 们 是 否 相 似 呢 ” 如 果 他 们 各 目 都 看 了 几 百 部 电影 ,这 一 点 
就 没有 多 大 辣 义 了 。 很 多 人 看 过 这 些 电影 ， 如 末 这 两 人 部 看 过 很 多 电影 , 但 仅 有 这 两 部 是 都 看 过 
的 , 那 他 们 可 能 并 不 相似 。 反 之, 如 果 每 个 用 户 都 只 看 过 很 少 的 电影 , 这 两 部 却 都 是 他 们 看 过 的 ， 
则 可 能 暗示 他 们 在 电影 方面 爱好 相似 ， 此 时 重 准 占 的 比重 很 大 。 

谷 本 系数 已 经 能 够 反映 这 一 思想 , 因为 它 考虑 了 两 者 交集 大 小 与 并 集 大 小 的 比值 。 对 数 似 然 
比 的 计算 则 略 有 不 同 。 它 试图 反映 两 个 用 户 由 于 机 绿 巧合 发 生 重合 的 不 可 能 性 。 也 就 是 说 ， 两 个 
不 相似 的 用 户 坚 无 疑问 会 共同 评价 一 些 电 影 ， 但 是 两 个 相似 用 户 之 间 的 重 登 不 太 可 能 是 出 于 巧 
合 。 通 过 一 些 统计 检验 ,这 一 相似 性 度量 试图 判断 两 个 用 户口 味 不 相似 的 不 可 能 性 有 多 大 ; 不 可 


J 不 仅仅 是 针对 不 相似 用 户 的 衡量 。 一 一 译 者 注 
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能 性 越 大 ， 两 个 用 户 的 相似 度 越 高 。 最 终 的 相似 度 值 可 以 解释 为 发 生 重 三 的 非 倘 然 概 座 。 

在 我 们 的 小 数据 集 上 计算 出 来 的 一 些 相似 度 值 如 表 4-5 所 示 。 正 如 你 所 见 , 在 这 种 度量 方式 下 ， 
用 户 1 与 其 日 号 或 其 他 任何 有 共同 偏好 的 用 户 之 间 的 相似 度 都 不 等 于 1.0。 同 前 面 类 似 , 要 使 用 基于 
对 数 似 然 比 的 相似 性 上 度量， 只 需 将 new LogLikelihoodsimilarity 插 入 到 代码 清单 4-3 中 。 


表 4-5 ”用户 1 与 其 他 用 户 之 间 的 相似 度 ， 基 于 对 数 似 然 比 相似 性 度量 
物品 101 ”物品 102 ”物品 103 ”物品 104 ”物品 105 ”物品 106 ”物品 107 与 用 户 1 的 相似 度 


用 户 1 x x x 0.90 
用 户 2 x x x x 0.84 
用 户 3 x x 0.55 
用 户 4 x x x x 0.16 
用 户 5 x x x x x x 0.55 


虽然 很 难 一 概 而 论 ， 基于 对 数 似 然 比 的 相似 度 往往 优 于 基于 谷 本 系数 的 相似 度 。 从 某 种 意义 
上 说 , 它 是 一 个 更 智能 的 度量 标准 。 运行 评 佑 程序 就 可 以 看 到 , 至 少 对 于 这 个 数据 集 和 推荐 程序 ， 
相 比 于 TanimotoCoefficientsimilarity， 它 会 将 性 能 改善 为 0.73。 


4.3.9 ”推测 仿 好 值 


有 时 候 数据 过 少 会 成 为 问题 。 例 如 ,在 某 些 情况 下 一 些 用 户 对 只 在 一 个 物品 上 重 营 ,皮尔 壕 
相关 系数 无 法 计算 任何 相似 度 。 皮 尔 逮 相关 系数 也 不 考虑 只 有 一 个 用 户 表 达 过 偏好 的 物品 。 

如 果 在 所 有 缺失 的 数据 点 上 填充 一 个 上 默认 值 会 怎样 呢 ? 例 如 ,通过 为 用 户 没 有 评价 过 的 物品 
推测 一 个 玩 认 俩 好 值 ， 系 统 可 以 认为 每 个 用 户 都 评 佑 过 所 有 的 物品 。 可 以 通过 
PreferenceInferrer 接 口 与 | 人 这 种 机 制 ， 日 前 可 用 AveragingPreferenceInferrer 这 一 实 
现 ， 它 为 每 个 用 户 计算 其 已 评 佑 物品 的 平均 值 ， 并 以 此 作为 未 评估 物品 的 侦 好 值 。 在 
UserSimilari ty 实现 中 调用 setPre ferenceInferrer() 方法 可 以 开启 这 个 选项 

尽管 提供 了 这 一 机 制 , 但 实际 应 用 中 它 并 不 是 很 有 效 。 之 所 以 提 到 它 ， 是 因为 天 于 推荐 系统 
的 早期 研究 中 提 到 了 它 。 理 论 上 讲 ， 完 全 基于 已 有 信息 来 填补 缺失 信息 并 不 会 增加 任何 信息 量 ， 
相反 , 这 显然 会 严重 拖 慢 计算 速度 。 它 可 以 用 于 实验 , 但 在 真实 数据 集 上 灵 人 不 会 起 到 什么 作用 。 

你 现在 已 经 了 解 了 Mahout 中 所 有 关于 用 户 间 相 似 性 度量 的 实现 。 和 掌握 这 些 知 识 将 会 使 你 事 半 
功 倍 ， 因 为 Mahout 中 的 物品 间 相 似 性 度量 的 实现 与 此 非常 类 似 。 也 就 是 说 , 同样 的 计算 可 以 用 于 
定义 物品 之 间 的 相似 性 ， 而 不 仅仅 是 用 在 用 户 上 。 现 在 及 时 补充 这 些 知 识 是 很 有 必要 的 ,因为 相 
似 性 的 概念 同样 也 是 你 将 遇 到 的 另 一 类 Mahout 推 荐 程序 一 一 基于 物品 的 推 存 程 序 一 一 的 基础 。 


4.4 ”基于 物品 的 推荐 


我 们 已 经 了 解 了 Mahout 中 基于 用 户 的 推荐 程序 ; 不 只 是 一 个 推荐 程序 , 而 是 建立 在 基于 用 户 
的 推荐 方法 上 的 许多 工具 ， 是 通过 搭配 多 种 多 样 的 组 件 来 实现 的 。 


顺 其 自然 ， 下 面 我 们 将 要 讨论 基于 物品 的 推荐 程序 ( item-based recommender )。 由 于 前 面 讨 
论 过 的 很 多 组 件 (数据 模型 、 相似 性 度量 的 实现 ) 也 适用 于 基于 物品 的 推荐 ， 因 此 这 一 节 会 简短 
一 些 ， 


基于 物品 的 推荐 是 以 物品 ( 而 不 是 用 户 ) 之 间 的 相似 度 为 基础 的 。 在 Mahout 中 ， 这 意味 独 基 
TtemSimilari ty 实现 相似 性 度量 ， 而 非 基于 UserSimi1lari tyo 为 了 说 明 这 一 点 ， 我 们 回顾 
音乐 商店 里 的 场景 , 那 两 个 人 还 在 努力 尝试 肴 为 那个 男孩 儿 推 荐 他 喜欢 的 专辑 。 想 象 一 下 ,他们 
现在 从 为 一 个 角度 来 推测 那个 男孩 儿 的 喜好 : 

成 年 人 ; 我 要 为 一 个 男孩 儿 买 张 CD。 

店 员 : 好 的 ， 他 喜欢 什么 音乐 或 乐队 呢 ? 

成 年 人 : 他 总 是 军 一 件 Bowling In Hades 的 T 了 竹 ， 好 像 还 有 这 个 乐队 所 有 的 专辑 。 你 
有 什么 要 推荐 的 吗 ? 

店 员 : 啊 ， 喜 欢 Bowling In Hades 的 人 大 都 喜欢 Rock Mopster 这 个 新 专辑 。 


这 个 方法 看 起 来 不 错 。 它 跟前 面 的 例子 也 是 有 区 别 的 。 唱 斤 商 店 的 店员 根据 尹 孩 儿 豆 欢 的 东 
西 ， 为 他 推荐 了 一 个 类 似 的 专辑 。 这 与 以 前 是 不 同 的 ， 以 前 的 问题 是 :“ 谁 与 这 个 男孩 儿 相 似 ? 
他 们 又 吾 欢 什么 呢 ? ”现在 的 问题 是 ， 什么 东西 男 核 儿 音 欢 的 东 本 类似? 

图 4-4 显 示 了 基于 用 户 和 基于 物品 的 推荐 程序 之 间 的 本 质 区 别 。 它 们 通过 不 同 的 途径 选择 要 
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图 4-4 ”基于 用 户 和 基于 物品 的 推荐 之 间 的 区 别 : 基于 用 户 的 推荐 (长 虚线 ) 
寻找 相似 的 用 户 ， 并 了 解 他 们 喜欢 什么 ;基于 物品 的 推荐 〈 短 虚线 ) 
了 解 用 户 的 吉 好 ， 并 寻找 相似 的 物品 


4.4.1 算法 
了 人 解 基 于 用 户 的 推荐 程序 之 后 ,你 会 觉得 这 个 算法 很 熟悉 ,这 也 是 它 在 Mahout 中 的 实现 方式 。 
for (用 户 U 尚 未 表达 仿 好 的 ) 每 个 物品 这 
for (用 户 岂 表达 偏好 的 ) 每 个 物品 了 j 
计算 1 和 j 之 间 的 相似 度 s 
按 权 重 为 s 将 对 j 的 偏好 并 入 平均 值 
return 值 最 高 的 物品 ( 按 加 权 平 均 排 序 ) 


第 三 行 显示 了 它 基于 物品 之 间 的 相似 度 ,而 非 像 前 面 那样 基于 用 户 间 的 相似 度 。 两 种 算法 比 
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较 相 似 , 但 也 不 完全 是 彼此 相同 的 。 它 们 有 一 些 显 闭 的 区 别 。 例如， 基于 物品 的 推荐 程序 运行 时 
间 随 着 物品 的 个 数 增长 ， 而 基于 用 户 的 推荐 程序 运行 时 间 随 着用 户 数 增长 。 

这 也 成 为 使 用 基于 物品 的 推荐 程序 的 一 个 理由 : 如 末 物 品 数 比 用 户 数 少 很 多 的 话 , 基于 物品 
的 推荐 程序 会 市 来 显 闭 的 性 能 提升 。 

此 外 , 物品 要 比 用 户 稳定 一 些 。 像 DVD 这 样 的 物品 , 我 们 可 以 合理 的 假设 随 春 时 间 的 不 断 推 
移 ， 搜集 到 的 数据 越 来 越 多 ,对 物品 之 间 相 似 度 的 估计 值 会 趋 于 收敛 。 它 们 没有 理由 剧烈 或 频繁 
地 发 生变 化 。 类 似 的 现象 也 许 对 用 户 也 是 如 此 , 但 随 着 时 间 推 移 ， 用 户 会 有 一 些 新 的 认识 ,接触 
到 新 的 信息 ， 因 此 用 户 的 喜好 也 会 随 之 发 生 改 变 。 结合 前 面 的 例子 来 看 ，Bowling In Hades 和 Rock 
Mobster 这 两 个 专辑 一 年 后 的 相似 度 可 能 与 今天 差不多 。 但 前 面 提 到 的 同一 群 粉丝 一 年 后 的 品味 
仍然 相似 的 可 能 性 就 很 小 了 ， 因 而 他 们 之 间 的 相似 度 也 会 发 生 改 变 。 

如 采 物 品 之 间 有 更 稳定 的 相似 度 , 那么 它们 就 更 适合 于 预 匈 计算 。 预 抑 计算 相似 度 有 一 定 的 
工作 量 , 但 它 大 大 提升 了 运行 时 的 推荐 效率 。 在 运行 时 需要 快速 提供 推荐 结 采 的 场合 ,这 个 特性 
是 很 有 意义 的 ， 例 如 一 个 新 闻 网 站 ， 它 必须 及 时 地 将 每 个 新 闻 人 视图 推荐 出 去 。 

在 Mahout 中 , GenericItemSimilari ty 类 可 以 用 来 预先 计算 并 存储 temSimilari ty 的 结 
果 。 它 可 以 用 于 你 所 见 过 的 任何 实现 中 ， 只 要 你 愿意 ， 就 可 以 把 它 加 到 之 后 的 代码 片段 中 。 


4.4.2 ”探究 基于 物品 的 推荐 程序 
现在 我 们 将 一 个 简单 的 基于 物品 的 推荐 程序 垦 入 到 评估 框架 中 , 代码 如 下 。 此 时 的 程序 使 用 


GenericItemBas edRecommender 来 取代 Generi CUsSerBasedRecommender., 并 且 它 的 依赖 项 


更 为 简 污 。 
代码 清单 4-6 一 个 基础 的 基于 物品 的 推荐 程序 的 核心 部 分 


public Recommender buildRecommender (DataModel model) 
throws TasteException { 
ItemSimilarity similarity = new PearsonCorrelationSimilarity (model}; 
return new GenericitemBasedRecommender (model, similarity}); 


} 

PearsonCorrelationSimilarity 在 此 处 仍然 是 有 效 的 ， 作证 = 
UserSsimilarity 接 口 完全 类 似 的 Itemsimilarity 接 口 。 这 里 相似 性 的 定义 与 前 面相 同 , 都 是 
基于 皮尔 人 逊 相关 系数 的 ， 只 不 过 现在 是 在 物品 而 不 是 用 户 之 间 度 量 相似 性 。 也 就 是 说 ， 它 比较 的 
是 由 许多 用 户 针 对 一 个 物品 所 给 出 的 偏好 值 序 列 ， 而 不 是 一 个 用 户 针 对 许多 物品 的 偏好 值 友 列 。 

GenericItemBasedRecommender 比较 简单 ， 它 仅仅 需要 一 个 DataModeL 和 一 个 
ItemSimilarity 一 一 没有 ItemNeighborhood。 你 可 能 奇怪 它 为 什么 跟 GenericUserBased 
Recommendezr 不 对 称 。 回 想 一 下 ， 基 于 物品 的 推 存 过 程 并 非 从 零 开始 : 已 经 有 一 些 用 户 表达 过 
偏好 的 物品 。 这 与 基于 用 户 的 推荐 程序 在 第 一 步 确 定 的 相似 用 户 邻 域 是 类 似 的 。 计算 各 个 用 户 偏 
好 物品 的 邻 域 对 该 算法 后 面 的 步骤 没有 任何 意义 。 

建议 你 学 试 不 同 的 相似 性 度量 ,就 像 之 前 针对 基于 用 户 的 推荐 程序 所 做 的 和 尝试 一 样 。 并 非 所 
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有 的 Usersimilarity 实 现 都 有 相应 的 ItemsSimilarity 实 现 。 现在, 你 已 经 掌握 了 使 用 不 同 相 
似 性 度量 标准 时 ， 在 GroupLens 数 据 集 上 评估 基于 物品 的 推 在 程序 准确 性 的 方法 。 为 方便 起 见 ， 
结果 重新 计算 后 列 于 表 4-6 中 。 


表 4-6 ”使 用 不 同 Ttemsimilarity 度 量 标准 的 评估 结果 


实 现 相 似 度 
PearsonCorrelationSimilarity 0.75 
PearsonCorrelationSimilarity 二 权重 0.75 
EuclideanDistanceSimilarity 0.76 
EuclideanDistanceSimilarity 十 权重 0.78 
TanimotoCoefficientSimilarity 0.77 
LogLikelihoodSimilarity 0.77 


你 可 能 会 注意 到 ,这 种 推荐 程序 的 运行 速度 要 比 以 往 快 得 多 。 这 并 不 奇怪 , 假设 数据 集中 有 
70 000 个 用 户 和 10 000 个 物品 。 在 物品 数 小 于 用 户 数 的 情况 下 ， 基 于 物品 的 推荐 程序 通 第 会 运行 
得 更 快 。 你 可 能 希望 将 用 于 评估 的 数据 比例 提升 至 20% 左 右 (将 0.2 作 为 最 后 一 个 参数 传 给 
evaluate() )。 这 样 会 得 到 一 个 更 可 靠 的 评估 结果 。 可 以 看 到 ， 对 于 这 个 数据 集 ， 这 些 实现 所 
得 到 的 结 采 之 间 并 没有 明显 的 区 别 。 


4.5 Slope-one 推荐 算法 


你 喜欢 《人 情 巢 的 黎明 》( Caritos Way ) 这 部 电影 吗 ? 很 多 喜欢 这 部 电影 的 人 也 会 襄 欢 Al 
Pacino 的 另 一 部 电影 《 疤 面 人 答 星 》(Scaxrface )。 但 人 们 往往 更 喜欢 后 者 。 我 们 可 以 想象 如 果 一 个 
人 给 《 情 吕 的 黎明 》 四 颗 星 ， 那么 他 可 能 会 给 《 疤 面 笋 星 》 五 颗 星 。 所 以 如 有 果 你 给 《 情 扣 的 黎明 》 
三 颗 星 ， 我 们 猜 你 可 能 会 给 《 疤 面 笋 星 》 四 颗 星 一 一 比 《 情 只 的 黎明 》 多 一 颗 星 。 

如 果 你 同音 上 面 的 推理 ， 你 就 会 喜欢 slope-one 推 荐 算法 ( http://en.wikipedia.org/wiki/ 
Slope_One ), 它 基 于 新 物品 与 用 户 评 估 过 的 物品 之 间 的 平均 偏好 值 差异 来 预测 用 户 对 新 物品 的 偏 
好 但。 

举 个 例子 ， 我 们 假设 人 们 给 《 疤 面 笋 星 》 的 平均 分 要 比 《 情 提 的 黎明 》 高 出 1.0 分 。 再 假设 ， 
平均 看 来 ， 人 们 对 《 疤 面 笋 星 》 的 评价 与 《教父 》( The Godfather ) 相同 。 现 在 ， 我 们 有 一 个 用 
户 给 《 情 扣 的 黎明 》 打 了 2.0 分 ， 给 《教父 》 打 了 4.0 分 。 怎 样 合 理 的 估计 他 对 《 疤 面 笋 星 》 的 评 
价 呢 ? 

根据 《 情 泉 的 黎明 》 较为 理想 的 估计 应 该 是 2.0+1.0=3.0。 根 据 《 教 父 》 又 应 该 是 4.0+0.0=4.0。 
二 者 的 均值 可 能 是 一 个 更 好 的 估计 ， 3.5。 这 就 是 slope-one 推 存 方法 的 基石 。 


4.5.1 算法 
我 们 认为 两 个 物品 的 偏好 值 之 间 存 在 着 某 种 线性 关系 , 所 以 可 以 通过 某 个 线性 函数 , 例如 Y= 


4.$ Slope-one 推荐 算法 $1 


mX+b， 由 物品 3 的 偏好 值 估计 出 物品 7 的 偏好 值 。Slope-one 推 荐 算法 正 是 基于 这 一 假设 来 运作 ， 
并 因此 而 得 名 。Slope-one 推 荐 程序 做 了 进一步 的 简化 假设 m= 1， 即 斜率 为 1。 现 在 我 们 只 需要 确 
定 b5= 了 -对 ， 即 物品 两 两 之 间 仿 好 值 的 (平均 ) 差异 。 

这 意味 着 算法 需要 有 一 个 重要 的 预 处 理 步 台 ， 即 完成 所 有 物品 对 之 间 偏 好 值 差 异 的 计算 : 


for 每 个 物品 计 
for 每 个 其 他 物品 j 
for 对 并 和 j 均 有 偏好 的 每 个 用 户 u 
将 物品 对 (i 与 3) 间 的 偏好 值 差 异 加 入 的 偏好 


在 此 基础 上 ， 可 得 最 终 的 推荐 算法 如 下 : 


for 用 户 UU 未 表达 过 偏好 的 每 个 物品 
for 用 户 U 表 达 过 偏好 的 每 个 物品 j 
找到 j 与 i 之 间 的 平均 偏好 值 差异 
添加 该 差异 到 uu 对 j 的 偏好 值 
添加 其 至 平均 值 
Return 值 最 高 的 物品 ( 按 平均 差异 排序 ) 


我 们 在 本 书 前 面 例子 中 用 到 的 小 数据 集 上 求 平均 差异 值 ， 并 将 其 列 在 表 4-7 中 。 
表 4-7 所 有 物品 对 的 平均 偏好 值 差 异 。 对 角 线 上 的 单元 格 值 为 0.0。 下 半 部 分 单元 格 的 值 为 其 关 


于 对 角 线 对 称 的 单元 格 值 的 相反 数 ， 所 以 这 一 部 分 也 没有 在 表 中 列 出 。 某 些 差 异 值 不 存 
在 ， 例 如 102~107， 因 为 没有 用 户 同 时 对 物品 102 和 物品 107 给 出 偏好 值 


物品 101 物品 102 物品 103 物品 104 物品 105 物品 106 物品 107 

物品 101 -0.833 0.875 0.25 0.75 -0.5 2.5 
物品 102 0.333 0.25 0.5 1.0 = 
物品 103 0.167 1.5 1.5 一 
物品 104 0.0 -0.25 1.0 
物品 105 0.5 0.5 
物品 106 一 
物品 107 


Slope-one 的 吸引 力 在 于 其 算法 的 在 线 部 分 执行 很 快 。 与 基于 物品 的 推荐 程序 类 似 , 它 的 性 能 
不 受 数 据 模 型 中 用 户 数目 的 影响 。 它 仪 仪 依赖 于 物品 之 间 侦 好 值 的 平均 差异 ， 而 这 些 卷 开 值 可 以 
预 完 计算 好 。 为 外 ， 它 的 的 层 数 据 结 构 更 新 的 效率 很 品 : 当 一 个 侦 好 值 发 生 了 改变 ， 只 需要 更 新 
相关 的 差异 值 。 在 仿 好 值 变 化 频 烷 的 场合 ， 这 是 一 个 优点 。 

注音 ， 存 储 所 有 物品 对 之 间 的 偏好 值 差 寞 所 需要 的 内 存 随 物品 数 的 平方 增长 。2 售 的 物品 数 
意味 春 4 倍 的 内 存 用 量 ! 


4.5.2 ”Slope-one 实 践 
使 用 Slope-one 推 存 程 序 很 容易 。 它 不 再 必须 使 用 相似 性 度量 标准 这 个 参数 : 


new SlopeOCneRecommender (model) 
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骨 一 次 在 GroupLens 的 一 干 万 项 评价 的 数据 集 上 运行 我 们 的 标准 评估 程序, 结果 会 在 0.65 左 右 。 
这 已 经 是 最 好 的 了 。 实际 上 , 简单 的 Slope-one 方 法 在 很 多 情况 下 都 有 看 不 错 的 表现 。 与 我 们 目前 为 
止 接触 过 的 其 他 推 存 方法 不 同 ， 它 不 再 需要 用 到 相似 性 度量 标准 。 参 数 调 试 的 工作 量 大 大 减少 。 

与 皮尔 逊 相 关系 数 类 似 ， 简 单 形式 的 slope-one 算 法 也 存在 一 个 弱点 : 物品 之 间 的 差异 被 赋予 
了 相同 的 权重 ， 而 没有 考虑 这 些 差异 的 可 靠 性 一 一 计算 这 些 差异 时 使 用 了 多 少数 据 。 我 们 假设 仅 
有 一 个 用 户 同时 对 《和 情 吕 的 黎明 》 和 《恋恋 笔记 本 》( The Notepook ) 这 两 部 电影 给 出 了 评价 。 这 
是 可 能 的 ， 因为 这 两 部 电影 风格 杀 异 。 这 两 部 电影 之 间 的 差异 很 容易 计算 , 但 这 是 不 是 跟 基于 数 
和 干 名 用 户 计算 出 来 的 《 情 扣 的 黎明 》 和 《教父 》 之 间 的 差异 一 样 有 用 呢 ?” 看 起 来 不 是 。 后 者 可 能 
更 可 乔 ， 因 为 它 是 在 更 多 用 户 基础 上 计算 的 平均 值 。 

本 前 面 类 似 ， 引入 某 种 形式 的 权重 有 助 于 改善 这 些 推 存 算 法 的 性 能 。 SlopeOneRecommender 
提供 了 两 种 权重 : 基于 数量 的 和 基于 标准 差 的 权重 。 问 忆 一 下 Slope-one 佑 计 偏 好 值 的 过 程 ， 它 把 用 
户 所 有 已 评 售 物 品 的 偏好 值 加 上 一 个 差 寞 ， 然 后 将 这 些 结果 取 平 均 作为 最 后 的 售 计 值 。 基 于 数量 的 
加 权 会 在 那些 基于 更 多 数据 算出 的 差异 值 上 加 上 更 大 的 权重 。 平 均值 变 为 加 权 平 均值 ， 其 权重 就 是 
差异 数量 一 一 计算 菏 一 差异 时 用 到 的 用 户 数量 。 

类 似 地 ,基于 标准 差 的 加 权 通 过 偏好 值 差 寞 的 标准 差 来 计算 权重 。 较 低 的 标准 差 有 和 较 高 的 权 
重 。 如 果 两 部 电影 偏好 值 的 差异 对 于 很 多 用 户 都 是 一 致 的 ， 那么 它 可 能 更 可 徘 ,， 因而 会 得 到 更 高 
的 权重 。 如 果 它 在 不 同 用户 之 间 差 异 很 大 ， 那 它 就 不 那么 重要 了 了 。 

这 些 变 种 效 采 都 很 不 错 ， 所 以 它们 默认 是 被 开局 的 。 运 行 前 面 的 评 佑 程序 时 ,你 已 经 用 过 这 
种 方法 了 。 这 里 ,我 们 关 挥 它们 再 看 看 效 来 。 


代码 清单 4-7 选用 不 加 权 的 slopeOneRecommender 


DiffStorage diffStorage = new MemoryDiffStorage!l 
model, Weighting.UNWEIGHTED, Long.MAX VALURE)).; 

return new SlopeoneRecommender! 

model, 

Weighting .UNWEIGHTED, 

Weighting .UNWEIGHTED, 

diftfSstorage}).; 


结果 是 0.67 一 一 在 这 个 数据 集 上 只 差 了 一 点 点 。 


4.5.3 DiffSstorage 和 内 存 考虑 


slope-one 是 有 代价 的 : 内 存 消耗 。 事 实 上， 如 果 你 用 10% 的 数据 ( 大概 100 000 个 评价 ) 
来 进行 评估 ，1 GB 的 堆 空 间 都 不 够 用 。 差 异 值 使 用 很 频繁 ， 而 且 它 们 的 计算 代价 很 高 ， 因 此 
需要 预先 计算 并 保存 。 但 是 将 它们 全 都 保存 在 内 存 中 代价 是 很 高 的 ， 有 必要 把 这 些 差 异 值 存 
到 别 的 地 方 。 

季 运 的 是 ， 我 们 有 一 些 像 MysQLJDBCDiffstorage 这 样 的 实现 可 以 满足 这 一 需求 ， 它 们 允 
许 预先 计算 差异 值 并 在 数据 库 中 更 新 它们 。 它 们 需要 和 JDBC 文 持 的 DataModel 实 现 ( 比如 
MySOLJDBCDataModel ) 结合 起 来 使 用 ， 示例 如 下 。 
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代码 清单 4-8 ”创建 一 个 JDBC 支 持 的 Diffstorage 


AbstractJDBCDataModel model = new MySQLJDBCDataModel (}):; 
DiffSstorage diffStorage = new MySOQLJDBCDiffStorage (model}.:; 
Recommender recommender = new SlopeOneRecommender ( 

model, Weighting.WEIGHTED, Weighting.WEIGHTED, diffSstorage}).; 


在 MySOLJDBCDataModel 中 ,， MySOLJDBCD1iffS torage 使 用 的 表 名 和 列 名 可 以 通过 构造 器 
参数 (constructor parameter ) 来 定制 。 
9 


4 ”离线 计算 量 的 分 配 

预先 计算 物品 之 间 的 差异 值 是 一 个 很 重要 的 工作 。 你 首先 遇 到 的 问题 可 能 是 无 法 满足 生成 大 

量 数据 所 市 来 的 内 存 需 求 ,， 随 之 而 来 的 就 会 是 计算 这 些 差异 值 所 耗费 的 时 间 , 你 可 能 会 考虑 是 否 

有 办 法 通过 分 布 式 计算 提高 速度 。 在 运行 时 ， 如 采 有 新 的 信息 到 来 ,差异 值 很 容易 更 新 ， 因 此 预 

先 的 离线 计算 相对 不 是 很 频繁 ， 放 在 这 种 ( 分 布 式 ) 模式 下 是 可 行 的 。 
Mahout 支 持 通过 Hadoop 分 布 式 计算 差异 值 ,第 6 章 会 介绍 Mahout 支 持 的 所 有 Hadoop 相 关 的 推 

存 算 法 ， 从 而 更 深入 地 探索 这 一 过 程 。 
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4. 


Mahout 也 包含 一 些 其 他 推荐 方法 的 实现 。 本 蔬 催 要 介绍 了 三 个 比较 新 的 实现 , 它们 可 能 还 在 
不 断 的 改进 之 中 , 也 有 些 是 最 近 的 一 些 试验 性 质 的 实现 。 这 些 思路 都 可 能 有 实用 价值 或 值得 进 一 
步 改 进 。 


4.6.1 基于 奇异 值 分 解 的 推荐 算法 


这 里 面 最 有 意思 的 实现 葛 过 于 基于 SVD ( Singular Value Decomposition ， 奇 异 值 分 解 ) 的 
SVDRecommender 了 了。 这 是 从 线性 代数 引入 到 机 楷 学 习 中 的 一 项 重要 技术 。 完全 理解 它 需 要 一 些 
高 阶 的 矩阵 代数 知识 , 并 要 求 对 矩阵 分 解 有 比较 次 入 的 理解 , 但 对 于 SVD 在 推荐 系统 中 的 应 用 来 
说 ， 这 些 不 是 必要 的 。 

为 了 对 SVD 在 推荐 系统 中 的 作用 有 一 个 直观 的 理解 , 我 们 假设 你 询问 一 个 朋友 她 喜欢 什么 类 
型 的 音乐 ， 然 后 她 列 出 了 如 下 的 艺术 家 : 


" Brahms a Louis Armstrong 
a Chopin a Schumann 

m Miles Davis a John Coltrane 

m ‘Tchaikovsky a Charlie Parker 


她 可 能 也 总 结 了 一 下 , 表示 有 目 己 喜欢 古典 音乐 和 锋 士 乐 。 这 种 表述 传达 的 消息 就 不 那么 精确 
了 ， 但 也 不 是 太 不 精确 。 不 管 基 于 哪 种 表述 ， 你 都 可 能 〈 正 确 地 ) 推断 出 ， 相 对 于 古典 播 深 乐团 
Deep Purple， 她 可 能 更 喜欢 贝多 分 。 
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当然 ， 推 荐 引擎 处 理 的 是 具体 的 数据 点 ， 而 不 是 党 统 的 概念 。 其 输入 是 用 户 对 很 多 特定 物 
品 的 俩 好 值 一 一 可 能 是 如 前 面 所 述 的 艺术 家 列表 ， 而 不 是 后 来 的 概要 摘 述 。 考 虑 到 性 能 ， 处 理 
更 小 的 数据 集 可 能 是 一 个 不 错 的 选择 。 例 如 ， 如 采 iTunes 的 Genius 基 于 数 百 万 个 流派 ， 而 不 是 
基于 数 十 亿 首 独立 的 歌曲 评分 来 进行 推荐 ， 丈 能 运行 得 更 快 ; 而 且 ， 就 音乐 推荐 而 言 ， 效 有 末 并 
不 会 差 太 多 。 

这 里 ,SVD 束 能 起 到 上 述 的 提 炬 作用 。 它 从 用 户 对 各 个 物品 的 偏好 值 中 提 炬 出 数量 较 少 但 更 
具 一 般 性 的 特征 ( 例如 流派 )。 这 可 能 是 一 个 小 得 多 的 数据 集 。 

尽管 这 一 过 程 丢 掉 了 一 些 信 息 , 某 些 时 候 却 能 改善 推荐 结果 。 这 一 过 程 有 效 地 平滑 了 输入 数 
据 。 例 如 ,假设 有 两 个 汽车 发 烧 友 ,一 个 豆 欢 元 尔 维特 ( Corvettes ), 另 一 个 喜欢 科 迈 罗 ( Camaros )， 
他 们 都 想得到 对 汽车 的 推荐 。 这 两 个 发 烧 友 品味 比较 接近 : 他 们 都 喜欢 雪佛兰 跑车 。 但 在 针对 此 
类 问题 的 典型 数据 模型 中 ,这 两 辆 车 是 不 同 的 物品 。 如 果 偏 好 值 上 没有 任何 重 革 的话 ， 这 两 个 用 
户 可 能 被 认为 是 不 相关 的 。 然 而， 基于 SVD 的 推 存 方 法 却 可 能 找到 这 种 相似 性 。SVD 的 输出 可 能 
包含 一 些 对 应 于 雪佛兰 或 跑车 这 类 概念 的 特征 , 通过 这 些 特征 就 可 以 把 这 两 个 用 户 联系 起 来 。 根 
据 特 征 的 重 车 就 可 以 计算 出 某 种 相似 度 。 

使 用 svDRecommender 人 很 价 单 ， 代 人 码 如 下 : 

new SVDRecommender (model, new ALSWRFactorizer(model, 10, 0.05, 10)) 
SVDRecommender 使 用 了 一 个 Factorizer 来 完成 这 项 工作 ; 首次 使 用 可 以 试 试 上 面 的 
ALSWRFactorizer,。 这 里 我 们 不 展开 讨论 Factorizer 的 选择 。 

第 一 个 数值 参数 是 SVD 最 终 要 生成 的 特征 数目 。 这 里 没有 标准 答案 ; 它 可 以 是 你 从 某 人 音乐 
品味 中 归结 的 流派 个 数 ， 例 如 本 市 中 的 第 一 个 例子 。 第 二 个 参数 是 \， 它 控制 着 一 个 叫 正则 化 的 
分 解 希 〈factorizer ) 特征 。 最 后 一 个 参数 是 需要 执行 的 训练 步骤 数 。 你 可 以 认为 它 控 制 了 花 在 归 
纳 上 的 时 间 ， 而 较 大 的 值 意 味 着 更 久 的 训练 时 间 。 

这 个 方法 可 以 得 到 不 错 的 结果 ( 在 GroupLens 数 据 集 上 是 0.69 )。 目 前 ， 这 一 实现 的 主要 问题 
是 需要 在 内 存 中 完成 计算 。 整 个 数据 集 都 需要 放 在 内 存 中 ,如 果 不 满足 这 个 需求 , 却 恰恰 使 该 技 
术 有 了 用 武之 地 , 因为 它 可 以 在 不 显著 降低 输出 质量 的 情况 下 缩减 输入 规模 。 以 后 ， 这 个 算法 会 
基于 Hadoop 重 新 实现 ， 使 得 SVD 可 以 将 庞大 的 计算 分 配 到 多 人 台 机 需 上 ， 但 这 在 当前 的 Mahout 中 
尚 不 可 用 。 


4.6.2 ”基于 线性 插值 物品 的 推荐 算法 


线性 插值 不 同 于 以 往 的 基于 物品 的 推荐 方 法 ， 它 在 Mahout 中 的 实现 是 knnItemBased- 
Recommender。Knn 是 k nearest neighbors 的 和 傈 称 ， 也 用 于 NearestNUserNeighborhood 中 。 正如 你 
之 前 在 图 4-1 中 所 见 到 的 ，UserNeighborhood 的 实现 选择 指定 个 数 的 最 相似 用 户 作 为 近似 用 户 令 
域 。 这 里 的 线性 插值 算法 也 使 用 了 用 户 邻 域 的 概念 ， 但 采用 了 男 一 种 方式 。 

KnnItemBasedRecommender 仍 然 通过 用 户 已 评估 过 的 物品 的 加 权 平 均 来 估计 偏好 值 , 但 权 
重 不 再 是 相似 度 , 而 是 用 一 些 线性 代数 技术 计算 出 的 所 有 物品 对 之 间 的 最 优 权重 集合 一 一 这 就 十 
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用 到 线性 插值 的 地 方 。 目 然 ， 此 时 就 可 以 通过 一 些 数学 技巧 对 权重 进行 优化 。 

在 现实 中 ,在 所 有 物品 对 上 都 做 这 个 计算 的 代价 是 很 蜗 的 ,所 以 我 们 预 完 计算 出 与 目标 物品 ( 需 
要 估计 偏好 值 的 物品 ) 最 相似 的 物品 的 邻 域 。 即 选 定 zx 个 最 接近 的 邻 点 , 束 像 NearestNUserNeigh- 
borhoodq 上 所 做 的 那样 o 你 可 以 尝试 如 下 代码 清单 中 的 KnnItemBasedRecommender。 


代码 清 单 4-9 部 署 KnnI temBasedRecommender 


ItemSsimilarity similarity = new LogLikelihoodSsimilarity (model}):; 
Optimizer optimizer = new NonNegativeQuadraticOptimizer{(); 
return new KnnlitemBasedRecommender (model, similarity, optimizer, 10); 


这 上段 代码 使 用 对 数 似 然 相似 性 度量 标准 计算 出 10 个 最 近邻 物品 。 然后, 它 将 会 使 用 二 次 规划 
(quadratic programming ) 技术 来 求解 一 一 计算 线性 插值 的 基本 方法 。 这 一 计算 的 细节 不 在 本 书 的 
讨论 范围 之 内 。 

这 一 实现 是 很 有 用 的 , 但 其 当前 版 本 即便 在 中 等 规模 的 数据 集 上 运行 也 比较 绥 慢 。 可 以 认为 
它 适用 于 小 数据 集 ， 或 者 适用 于 学 习 和 扩展 。 在 GroupLens 数 据 集 上 上 上， 其 评估 结果 为 0.76。 


4.6.3 ”基于 聚 类 的 推荐 算法 


基于 聚 类 的 推荐 锌 认为 是 基于 用 户 推 荐 程序 的 最 好 变种 。 它 将 物品 推荐 给 相似 用 户 角 ， 而 不 
是 具体 用 户 。 它 需要 一 个 将 所 有 用 户 划 分 到 不 同族 的 预 处 理 过 程 。 然 后 ， 它 为 每 个 刻 提 供 推荐 ， 
这 样 ， 推 荐 的 物品 就 会 被 尽 可 能 多 的 用 户 接受 。 

这 种 方法 的 好 处 在 于 运行 时 的 推荐 很 快 , 因为 几乎 一 切 痢 预先 计算 好 了 。 或 许 这 种 方式 给 出 
的 推荐 不 够 个 性 化 , 因为 推荐 是 为 一 个 群 组 而 不 是 个 人 提供 的 。 对 于 几乎 没有 历史 修好 数据 的 新 
用 户 而 言 ， 用 这 种 方法 提供 推荐 可 能 会 更 有 效 。 只 要 用 户 可 以 合理 归 入 一 个 相关 的 禾 ， 推 荐 顷 
就 会 随 着 对 用 户 的 不 断 了 解 而 越 来 越 好 。 

该 算法 得 名 于 它 循 环 地 将 最 相似 的 旋 拼 接 成 更 大 的 艇 , 而 这 洪 在 地 将 用 户 组 织 成 菜 种 层次 结 
构 ， 或 者 说 树 形 结构 ， 如 图 4-5 所 示 。 


0 
全 


图 4-5” 聚 类 示意 图 。 用 户 1 和 用 户 5$ 首 先 被 聚集 到 一 起 ， 还 有 2 和 3 ， 因 为 他 们 是 最 相近 的 。 
然后 ，4 被 并 人 1 和 5 的 禾 中 从 而 得 到 一 个 更 大 的 复 ， 阳 着 树 形 结构 又 推进 了 一 步 
遗憾 的 是 ， 聚 类 会 花费 很 长 的 时 间 ， 运行 如 下 代码 清单 中 的 代码 时 你 就 会 意识 到 这 一 点 , 它 
引入 了 TreeCclusteringRecommendet 来 实现 这 一 思想 。 
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“和 了 :去 记 又》 A 
代码 清单 4-10 ”创建 一 个 基于 聚 类 的 推荐 程序 
UserSimilarity similarity = new LogLikelihoodSsimilarity (model)}); 
ClusterSsSimilarity clusterSimilarity = 
new FarthestNeighborClusterSimilarity(similarity):; 
return new TreeClusteringRecommender (model, clusterSimilarity, 10}); 


用 户 间 的 相似 性 通常 由 Usersimilarity 的 实现 来 定义 。 用 户 徐 之 间 的 相似 性 则 由 
clusterSimilarity 的 实现 来 定义 。 目 前 ， 有 两 种 可 用 的 实现 : 其 中 一 个 用 分 别 取 目 两 个 族 的 
两 个 最 相似 用 户 之 间 的 相似 度 作为 聚 类 相似 度 ; 另 一 个 则 用 分 别 取 目 两 个 族 的 两 个 最 不 相似 用 户 
之 间 的 相似 度 作为 聚 类 相似 度 。 

两 种 方式 都 是 合理 的 , 但 也 都 会 遇 到 同样 的 问题 ， 即 一 个 复 边 界 上 的 某 个 离 群 点 会 破坏 复 的 
相似 性 。 最 相似 用 户 规则 对 应 的 实现 为 NearestNeighborCclusterSimiLarity， 两 个 成 员 之 
间 平 均 距离 很 远 的 艇 ,可 能 因为 边界 接近 而 被 它 认 为 是 相近 的 。 最 不 相似 用 户 规则 对 应 的 实现 为 
FarthestNeighborCc usterSimilarityl( 见 代 码 清 单 4-10 )， 它 则 可 能 因为 存在 两 个 相隔 很 远 
的 离 群 点 ， 而 认为 两 个 实际 上 非常 接近 的 族 距 离 很 大 。 

尽管 当前 Mahout 中 没有 实现 ,但 还 有 第 三 种 可 行 的 方法 ， 即 基于 两 个 禾 中 心 〈 或 均值 ) 的 距 
离 定 义 复 的 相似 性 。 

4. 


7 对 比 其 他 推荐 算法 


本 书 前 面 提 到 过 , 基于 内 容 的 推荐 是 一 种 广泛 并 经 毕 被 提 太 的 推荐 方法 , 它 考虑 了 物品 的 上 
下 文 或 属性 。 基 于 这 个 原因 ， 它 类 似 但 又 不 同 于 协同 过 滤 方 法 ,后 者 仅仅 基于 用 户 与 物品 之 间 的 
关联 , 并 将 物品 看 成 是 没有 属性 的 黑 盒 子 。 尺 省 Mahout 基 本 上 不 实现 基于 内 容 的 方法 , 但 它 提供 
了 一 些 在 推荐 中 使 用 物品 属性 的 可 能 性 。 


4.7.1 为 Mahout 引 入 基于 内 容 的 技术 


从 个 例子 , 假设 有 一 个 在 线 书 商 转 积 了 一 些 书 的 多 个 版 本 。 这 个 书 商 可 能 需要 为 其 顾客 推 
存 图 书 。 当 然 , 这 里 的 物品 就 是 书 ,我们 很 卓然 会 用 ISBN 〈 一 个 唯一 的 产品 标识 ) 来 代表 一 本 
书 。 但 是 对 于 流行 的 大 众 化 图 书 ， 例如 《 简 .' 爱 》， 可 能 有 不 同 的 出 版 丙 出 版 文子 相同 的 不 同 
印刷 品 ,， 这 些 印刷 品 的 ISBN 是 不 同 的 。 看 起 来 基于 它们 的 文字 来 推 存 书籍 , 要 比 基 于 不 同 的 版 
本 更 卓然 一 些 一 一 你 应 该 不 太 在 意 目 己 读 的 是 “《 人 简 :' 爱 》》， 还 是 “ACME 在 1993 年 出 版 的 平 
装 《 简 : 爱 光 吧 ? 可 能 将 书本 映 ( 它 的 文字 ) 看 做 一 个 物品 ， 并 一 视 同仁 地 推荐 这 本 书 的 所 
有 了 版本， 要 比 将 不 同 版 本 的 《 简 . 爱 》 看 做 不 同 的 物品 来 推荐 更 有 用 。 从 某 种 意义 上 讲 ， 这 就 
属于 基于 内 容 的 推荐 了 。 把 一 本 书 中 的 文字 ( 这 是 基于 内 容 推 茬 的 显著 特征 ) 作为 协同 过 渡 的 
推荐 物品 ， 然 后 应 用 Mahout 中 的 协同 过 涯 扩 术 ， 这 个 书 商 就 完成 了 一 种 基于 内 容 的 推荐 。 

回忆 一 下 ， 基 于 物品 的 推荐 程序 需要 定义 给 定 两 个 物品 之 间 的 相似 度 。 这 一 相似 度 封 痛 在 
Itemsimilarity 的 实现 中 。 目 前 为 止 , 所 有 的 实现 都 只 从 用 户 的 仿 好 值 中 推导 出 相似 度 一 一 这 
是 经 典 的 协同 过 滤 。 但 是 没有 理由 说 相似 度 不 能 基于 物品 属性 来 计算 。 例 如, 一 个 电影 推荐 程序 
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可 能 把 物品 (电影 ) 间 的 相似 度 定 义 为 诸如 流派 、 导 演 、 演员、 上 映 年 份 等 这 些 电 影 属性 的 函数 。 
在 传统 的 基于 物品 的 推荐 程序 中 使 用 这 种 实现 也 算是 一 个 基于 内 容 进 行 推荐 的 例子 。 


4.7.2 ”深入 理解 基于 内 容 的 推荐 算法 


更 进一步 , 我 们 可 以 把 基于 内 容 的 推荐 看 做 是 更 具 一 般 性 的 协同 过 滤 。 在 协同 过 滤 中 ， 我们 
基于 偏好 值 来 进行 计算 ， 而 偏好 值 就 是 用 户 与 物品 之 间 的 关联 。 但 “驱动 ”这 种 用 户 与 物品 之 间 
关联 的 又 是 什么 呢 ? 就 是 用 户 对 特定 的 物品 属性 有 着 某 种 隐 含 的 俩 好 , 结 采 完全 反映 在 用 户 对 特 
定 物 品 的 偏好 值 上 。 例如 , 如 果 朋 友 告 诉 你 她 喜欢 ed Zeppelin 1、Led Zeppelin 7 和 Zed Zeppelin 11 
这 些 专辑 , 你 可 以 比较 有 把 握 地 猜测 她 实际 上 是 对 这 些 物品 的 一 个 属性 表达 了 偏好 : Led Zeppelin 
乐队 。 通 过 发 掘 这 些 关 联 并 发 党 物品 的 属性 ， 我 们 就 有 可 能 基于 这 些 对 用 户 -物品 关联 更 细致 的 
了 解 来 构建 推荐 引擎 。 

这 些 技术 与 搜索 和 文档 检索 技术 类 似 : 基于 用 户 与 属性 之 间 的 关联 和 物品 的 属性 来 判断 一 个 
用 户 可 能 会 喜欢 什么 物品 ， 跟 基于 碍 询 词 项 和 文档 词 项 的 出 现 来 确定 检索 结 采 是 类 似 的 。 尽 管 
Mahout 的 推荐 程序 尚未 包含 这 些 技术 ,但 在 将 来 的 版 本 中 这 会 是 一 个 很 卓然 的 改进 方 癌 。 


4.8 ”对 比 基 于 模型 的 推 在 算法 


基于 模型 的 推荐 是 Mahout 未 来 的 又 一 发 展 方 回 。 这 类 技术 试图 基于 已 有 的 侦 好 值 为 用 户 侦 好 
建立 某 种 模型 ， 然后 推测 新 的 偏好 值 。 这 些 技术 通常 可 被 认为 是 更 广义 的 协同 过 小， 因为 它们 仅 
仅 基 于 用 户 仿 好 值 来 进行 推荐 。 

模型 可 以 是 用 户 偶 好 值 的 概率 图 , 例如 可 以 是 贝 叶 斯 网 络 的 形式 。 随 后 算法 会 试图 基于 现 有 
的 用 户 仿 好 值 来 判断 用 户 到 欢 一 个 新 物品 的 概率 ， 并 在 此 基础 上 对 推荐 结果 进行 排序 。 

天 联 规则 学 习 可 以 用 于 类似 的 推荐 场合 。 通 过 从 数据 中 学 习 诸 如 “如 采用 户 豆 欢 物品 X 和 物 
品 Y， 那 他 们 也 会 喜欢 物品 Z” 之 类 的 规则 ， 并 评估 这 些 规 则 的 可 信和 度 ， 一 个 推荐 程序 就 可 以 得 
到 新 的 ， 且 可 能 最 受 欢迎 的 物品 的 集合 。 

基于 肾 类 的 推荐 程序 也 算是 一 种 基于 模型 的 推荐 程序 。 肾 类 所 得 到 的 族 就 表示 一 个 模型 ， 该 模 
型 撕 述 用 户 如 何 成 组 ， 进 而 描述 他 们 的 偏好 值 绿 何 具有 相似 性 。 如 朱 只 从 这 一 点 上 看 ，Mahout 文 持 
基于 模型 的 推荐 程序 。 但 在 本 书写 作 期 间 ，Mahout 中 这 一 部 分 内 容 仍然 处 于 紧锣密鼓 的 开发 之 中 。 


4.9 小结 


本 章 ， 我 们 深入 探讨 了 Mahout 中 核心 的 推荐 算法 。 

通过 现实 世界 中 的 示例 ,我 们 解释 了 一 般 意 义 上 的 基于 用 户 的 推荐 算法 。 接 下 来 ,我 们 了 人 解 
了 这 个 算法 在 Mahout 中 的 实现 ， 即 CenericUserBasedRecommender。 这 一 通用 方法 有 很 多 可 
以 定制 的 地 方 ， 例 如 用 户 相 似 度 和 用 户 邻 域 的 定义 。 

我 们 了 解 了 经 典 的 用 户 相 似 性 度量 , 即 基于 皮尔 逊 相关 系数 的 相似 性 度量 , 提 到 了 这 种 方法 
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存在 的 一 些 问题 ,并 讨论 了 一 些 解决 方法 ,例如 加 权 。 另 外 ,我 们 也 介绍 了 基于 欧 氏 距离 、 斯 皮 
尔 曼 相关 系数 、 合 本 系数 以 及 对 数 似 然 比 的 相似 性 度量 。 

接 下 来 我 们 介绍 了 另 一 类 典型 的 推荐 技术 ， 即 基于 物品 的 推荐 ， 其 对 应 实现 为 GenericItem- 
BasedRecommender。 它 用 到 了 前 面 介绍 基于 用 户 的 推荐 程序 时 提 到 的 一 些 概念 ， 例 如 皮尔 逊 相关 

然后 ,我 们 介绍 了 slope-one 推 厦 算 法 ， 它 是 一 个 独特 而 又 相对 从 单 的 方法 ， 基 于 物品 之 间 偏 
好 值 的 平均 差异 进行 推荐 。 得 到 这 些 平均 差异 值 需 要 预 完 进 行 大量 计 算 , 并 且 要 花费 大 量 空间 来 
存储 它们 ， 所 以 我 们 介绍 了 如 何 同 时 在 内 存 和 数据 库 中 存储 它们 。 

最 后 ,我 们 简要 介绍 了 当前 框 染 中 一 些 较 新 的 、 试 验 性 质 的 实现 , 包括 基于 奇异 值 分 解 、 比 
性 插值 以 及 聚 类 方法 的 实现 。 由 于 目前 仍 在 开发 之 中 , 这 些 方法 的 应 用 可 能 仅 限 于 小 数据 集 上 的 
实验 使 用 或 用 于 学 术 人 研究 。 

各 种 实现 的 关键 参数 和 特性 汇总 在 表 4-8 中 。 

表 4-8 ”Mahout 中 现 有 推荐 程序 实现 的 汇总 ， 包 括 选择 一 种 实现 时 需要 考虑 的 关 


键 输入 参数 及 关键 特性 
实现 关键 参数 关键 特性 
GenericUserBasedRecommender e 用户 相似 性 度量 e 传统 的 实现 
。 邻 域 定 义 及 其 大 小 e 用 户 数 较 少 时 相对 较 快 
GenericItemBasedRecommender © 物品 相似 性 度量 e 物品 数 相对 较 少 时 较 快 
e 存 在 物品 相似 性 的 外 部 定义 时 比较 有 效 
SlopeOneRecommender e 差异 值 存储 方式 e 在 运行 时 进行 推荐 和 更 新 数据 都 很 快 
e 雷 要 预先 进行 大 量 计 算 
e 适合 物品 数 相 对 很 少 的 情况 
SVDRecommender e 特征 数量 e 效果 很 好 
。 和 需要 预先 进行 大 量 计算 
KnnItemBasedRecommender e 中 值 个 数 (无 ) e 物品 数 较 少时 效果 很 好 
® 物品 相似 性 度量 
。 邻 域 大 小 
TreeClusteringRecommender e 聚 类 个 数 e 在 运行 时 推荐 很 快 
。 聚 类 相似 性 定义 。 和 需要 预先 进行 大 量 计算 
e 用 户 相 似 性 度量 e 用 户 数 较 少 时 效果 很 好 


我 们 已 经 介绍 了 Mahout 对 推荐 引 敬 的 支持 情况 , 现在 可 以 从 实际 应 用 的 角度 出 发 , 去 尝试 更 
大 规模 的 真实 数据 集 了 。 你 可 能 会 奇怪 : 为 什么 到 目前 为 止 很 少 提 及 Hadoop? Hadoop 是 一 个 强 
有 力 的 工具 ， 当 需要 使 用 很 多 机 需 处 理 大 数据 集 时 ， 它 是 必 不 可 少 的 。 但 它 也 存在 缺陷 : 它 所 
处 理 的 是 资源 密集 型 的 庞大 计算 ,因此 这 些 计算 的 完成 时 间 以 小 时 计 ， 而 不 是 坚 秒 。 我 们 将 在 第 
一 部 分 的 最 后 一 草 讨论 Hadoop。 

在 下 一 章 中 , 我 们 首先 将 基于 Mahout 创 建 一 个 运行 在 一 台 机 右上 的 、 可 用 于 生产 环境 的 推荐 
引擎 ， 它 可 以 在 不 到 1 s 的 时 间 内 对 推荐 请 求 作出 啊 应 ， 并 能 够 快速 更 新 信息 。 


让 推 存 程序 实用 化 


本 章 内 容 

口 分 析 来 目 真 实 约 会 网 站 的 数据 

DO 设计 并 调 优 一 个 推荐 引擎 

口 在 生产 环境 中 部 署 一 个 基于 Web 的 推荐 服务 


迄今 为 止 ， 本 书 介 绍 了 Apache Mahout 所 提供 的 推荐 算法 及 其 变种 ， 并 讨论 了 如 何 评估 一 个 
推荐 程序 的 精度 和 性 能 。 下 一 步 是 把 它们 都 应 用 在 真实 数据 集 上 ,从 零 开 始 创 建 一 个 高 效 的 推荐 
引擎 。 我 们 将 依赖 某 个 约会 网 站 的 数据 创建 一 个 推荐 引擎 , 并 把 它 变 成 一 个 可 部 署 在 生产 环境 中 
的 Web 服 务 。 

没有 一 个 标准 的 方法 指导 我 们 在 给 定 的 数据 和 问题 域 上 构建 推荐 程序 。 但 至 少 , 数据 必须 能 
人 够 表达 用 户 和 物品 之 间 的 关联 ,其 中 这 里 的 用 户 和 物品 可 以 是 很 多 对 象 。 为 推 基 算 法 设 定 输入 数 
据 的 过 程 通常 是 与 特定 问题 相关 的 ,而 你 如 何 找 到 最 优 的 推荐 引 警 来 适应 输入 数据 也 同样 与 场景 
有 关 。 这 不 可 避免 地 涉及 在 真实 数据 上 进行 实地 的 发 气 、 实 验 和 评 佑 。 

本 章 给 出 一 个 过 程 间 紧密 衔接 的 示例 ， 据 此 讲述 如 何在 数据 集 上 使 用 Mahout 开 发 推荐 系统 。 
首先 选取 一 个 方法 ,然后 收集 数据 、 评 估 结 果 ， 再 多 次 重复 这 个 过 程 。 其 中 有 许多 方法 并 不 会 被 
用 到 , 但 它们 也 同样 重要 。 这 种 又 力 的 方法 是 有 道理 的 ， 因为 它 可 相对 轻松 地 评估 Mahout 中 的 一 
个 方法 。 男 外 ， 就 像 在 其 他 问题 域 中 一 样 ， 仪 仪 观察 数据 并 不 总 能 搞 清 楚 什 么 是 正确 的 方法 。 


5.1 分 析 来 目 约会 网 站 的 样本 效 据 


下 面 使 用 一 个 新 的 数据 集 ， 它 来 自 捷克 的 一 个 约会 网 站 一 一 Libimseti ( http://libimseti.cz/ )。 
该 网 站 的 用 户 可 以 对 其 他 用 户 的 档案 进行 评分 ,分 值 从 1 到 10 不 等 。 分 值 为 1 代表 NELIBI ( 即 不 
喜欢 ), 分 值 为 10 代 表 LIBI( 即 喜欢 )。 网 站 展示 的 档案 可 以 让 该 网 站 的 用 户 对 已 建 档 用 户 的 气质 、 
形象 以 及 可 约会 性 做 一 些 评价 。 大 量 的 这 类 数据 被 匿名 化 , 可 供 人 研究 使 用 , 并 已 由 Vaclav Petricek 
发 布 ( http:/www.occamslab.conypetricek/data/ ) "。 你 需要 从 该 网 站 上 下 载 完整 的 数据 副本 


GD 另 参 见 Lukas Brozovsky 和 Vaclav Petricek 的 “Recommender System for Online Dating Service”, 网 址 为 http:/www.occamslab. 
com/petricek/papers/dating/brozovsky07recommender.pdf 。 
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( http://www.occamslab.com/petricek/data/libimseti-complete.zip )， 以 便 使 用 本 章 中 的 示例 。” 

该 数据 集 有 17 359 346 份 评分 ， 几 乎 是 我 们 之 前 所 用 GroupLens 数 据 集 的 两 倍 。 它 包含 用 户 对 
物品 的 明确 评分 , 这 里 的 物品 为 其 他 人 的 用 户 档案 。 这 意味 着 建立 在 该 数据 上 的 推荐 系统 是 将 人 
推荐 给 人 。 这 提醒 我 们 从 更 冤 广 的 视角 来 理解 推荐 程序 , 而 不 只 是 局 限 在 书 和 DVD 这 样 的 推荐 对 
象 上 。 

生成 推荐 程序 首先 要 做 的 事情 是 分 析 所 要 用 到 的 数据 , 并 开始 琢 麻 什么 样 的 推荐 算法 才 是 适 
合 的 。 你 下 载 的 ratings.dat 文 件 有 257 MB ， 是 一 个 简单 的 以 逗号 分 界 的 文件 ， 包 含 用 户 ID 、 档 案 
ID 和 评分 ,每 行 代表 一 个 用 户 对 为 一 个 用 户 的 档案 的 一 次 评分 。 数 据 被 有 意 地 做 了 模糊 处 理 ， 
此 用 户 ID 并 非 网 站 上 的 真实 用 户 IDP。 而 档案 就 是 其 他 用 户 的 档案 ,数据 则 代表 对 其 他 用 户 的 评分 。 
你 可 能 会 认为 这 里 用 户 ID 和 档案 ID 是 对 等 的 ， 比 如 用 户 ID 1 和 档案 ID 1 是 同一 个 用 户 ， 但 因为 做 
了 匿名 处 理 ， 实 际 上 并 非 如 此 。 

在 数据 中 存在 135 359 个 独立 用 户 ， 总 共 评 价 了 168 791 个 独立 的 用 户 档 案 。 因 为 用 户 和 物品 
的 个 数 大 致 相同 ， 基 于 用 户 和 基于 物品 的 推荐 都 不 会 明显 更 优 。 假 设 档案 数 比 用 户 数 大 得 多 ,， 则 
基于 物品 的 推荐 程序 会 更 慢 。 这 里 可 以 用 slope-one, 即便 它 的 内 存 需 求 会 随 着 物品 个 数 快 速 增加 ， 
但 可 以 对 此 进行 限制 。 

这 个 数据 集 经 过 了 预 处 理 : 剔除 了 生成 评分 个 数 不 到 20 个 的 用 户 。 而 且 , 其 中 排除 了 几乎 对 每 
个 档 肥 都 给 出 相同 分 值 的 用 户 , 因为 这 可 能 是 垃圾 信息 或 不 严肃 的 评分 。 如 采 来 自用 户 的 数据 是 他 
们 真心 做 出 的 评分 ， 想 必 相 比 于 不 那么 投入 的 用 户 做 的 评分 ， 他 们 的 输入 数据 有 用 且 无 噪声 的 。 

输入 数据 的 格式 直接 可 以 用 于 Mahout 的 FileDataMode1l。 即 用 户 和 档案 Jp 是 数字 ， 文 件 按 
字段 依次 以 逗号 分 隔 : 用 户 ID ， 物 品 ID 和 侦 好 值 。 

下 载 的 压缩 包 中 还 有 另 一 个 有 趣 的 数据 集 genderdat: 大 部 分 档案 的 用 户 性 别 。 不 是 所 有 的 档 
宁都 有 性 别 信 息 ， 在 gender.dat 中 ， 有 些 行 以 U 结 尾 ， 表 示 性 别 未 知 。 在 数据 集中 给 出 的 不 是 用 户 
的 性 别 一 一 而 是 档案 的 性 别 一 一 但 是 我 们 还 是 多 知道 了 一 些 物品 的 信息 。 当 人 被 推 厦 时 ,男性 档案 
之 间 会 比 男性 档案 和 女性 档案 之 间 表 现 得 更 像 , 反之 亦 然 。 如 果 某 个 用 户 的 大 多 数 或 全 部 评分 都 
面 品 男性 档案 , 就 有 理由 相信 该 用 户 对 与 男性 档案 约会 的 意愿 远 比 女 性 档案 更 强 。 这 个 信息 会 成 
为 物品 之 间 相 似 性 评估 的 基础 。 

这 并 不 是 一 个 完美 的 假设 。 这 里 并 不 转 癌 性 别 这 个 敏感 的 话题 , 我 们 注意 到 网 站 的 一 些 用 户 
可 能 会 乐此不疲 地 评论 别人 的 档案 ,即使 他 们 根本 不 会 去 约会 属于 该 档案 性 别 的 人 。 一 些 用 户 还 
可 能 拥有 对 两 种 性 别 的 浪 温 情节 。 事 实 上 ， 在 ratings.dat 中 最 开始 的 两 个 评分 来 日 于 同一 个 用 户 ， 
显然 面 回 的 是 两 种 不 同性 别 的 档案 。 

在 这 种 约会 网 站 的 推荐 引擎 中 考虑 性 别 是 非常 重要 的 ; 如 果 把 一 个 女性 推荐 给 一 个 仪 对 男性 
感 兴趣 的 用 户 , 它 必然 会 是 一 个 很 糟糕 的 推荐 , 而 且 会 有 些 冒 犯 用 户 。 做 这 个 限制 是 非常 重要 的 ， 
但 对 于 我 们 在 Mahout 中 见 到 的 标准 推荐 算法 而 言 , 这 种 限制 并 不 是 完全 契合 的 。 本 章 后 续 各 将 
检视 如 何 作为 一 个 过 小 硕 和 一 种 相似 性 度量 方法 将 之 插入 推荐 算法 中 。 


J 该 网 站 及 数据 发 布 者 均 与 本 书 无 关 。 
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5.2 找到 一 个 有 效 的 推 厦 程 序 


为 了 新 建 一 个 推荐 引 敬 来 处 理 Libimseti 数 据 ,， 你 需要 从 Mahout 中 挑选 一 个 推荐 程序 。 这 个 推 
存 程 序 应 该 既 快 又 好 。 两 相 权 衡 ， 最 好 先 关 注 推 荐 的 质量 ,再 考虑 性 能 。 毕 苋 ， 飞 快 地 生成 一 个 
很 差 的 推荐 有 什么 用 呢 ? 

观察 数据 不 可 能 推测 出 正确 的 实现 ， 需 要 做 一 些 答 试 性 的 测试 。 准 备 好 第 2 章 的 推荐 程序 评 
佑 框架 之 后 ， 就 可 以 搜集 各 种 实现 在 这 个 数据 集 上 的 表现 了 。 


5.2.1 基于 用 户 的 推荐 程序 


自然 先 从 基于 用 户 的 推荐 程序 开始 。 在 Mahout 中 可 以 选择 多 种 不 同 的 相似 性 度量 和 邻 域 定 
义 。 为 了 了 解 哪 些 好 用 哪些 不 好 用 ,你 可 以 尝试 许多 种 组 合 。 在 我 们 的 测试 环境 中 的 一 些 实验 结 
果 参 见 表 5-1、 表 5-2 和 图 5-1、 图 5-2。 


表 5-1 基于 一 种 相似 性 度量 和 用 户 的 n 个 最 近邻 评估 基于 用 尸 的 推荐 程序 ， 所 得 
到 的 估计 和 实际 偏好 值 之 间 的 平均 绝对 差 值 


相似 性 度量 标准 n=1 n=2 n=4 n=8 n=16 n=32 n=64 n=128 
欧 氏 距离 1.17 1.12 1.23 1.25 1.25 1.33 1.48 1.43 
皮尔 了 进 相关 系数 1.30 1.19 1.27 1.30 1.26 1.35 1.38 1.47 
对 数 似 然 1.33 1.38 1.33 1.35 1.33 1.29 1.33 1.49 
谷 本 系数 1.32 1.33 1.43 1.32 1.30 1.39 1.37 1.41 


表 5-2 ”基于 一 种 相似 性 度量 和 用 户 的 基于 阅 值 的 最 近邻 评估 基于 用 户 的 推荐 程序 ， 所 得 到 的 估计 和 实际 
含 好 值 之 间 的 平均 绝对 差 值 。 一 些 值 为 “not a number”【〔 未 定义 )， 由 Java 的 NaN 符 号 表示 


相似 性 度量 标准 {t=0.95 {=0.9 {=0.85 {=0.8 {=0.75 {=0.7 
欧 氏 距离 1.33 37 1.39 1.43 1.41 1.47 
皮尔 逊 相 关系 数 1.47 1.4 1.42 1.4 1.38 1.37 
对 数 似 然 1.37 1.46 1.56 1.52 1.51 1.43 
谷 本 系数 NaN NaN NaN NaN NaN NaN 
1.6 
1.5 
14 | @ 欧 氏 距 离 
侠 1.3 | 香 皮 和 尔 逊 相关 系数 
分 1.2 对 数 似 然 


11 | 里 谷 本 系数 


) 4 8 16 32 64128 
邻 域 大 小 


图 5-1 表 5-1 中 值 的 可 视 化 
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S 
a 欧 氏 距 离 
13 | = 皮尔 逊 相 关系 数 
。 | 对 数位 然 
0.95 0.9 0.85 0.8 0.75 0.7 
赣 值 


图 $-2” 表 S$-2 中 值 的 可 视 化 


上 面 的 结果 还 不 错 。 这些 推 荐 程序 所 估计 的 用 户 偏 好 平均 偏差 在 1.12~1.56 之 间 , 而 取 值 范围 
为 1~10。 

这 里 可 以 得 到 一 些 趋势 , 尽管 有 些 独 立 的 评估 结果 与 此 趋势 不 同 。 看 起 来 欧 氏 距离 相似 性 度 
量 似乎 比 皮尔 逊 相关 系数 略 好 ， 虽 然 它 们 的 结果 非常 相似 。 此 外 , 小 的 邻 域 比 天 的 好 ， 邻 域 为 两 
人 时 所 得 评估 结果 最 佳 。 也 许 用 户 的 偏好 的 确 相 当 个 性 化 , 在 计算 中 引入 太 多 其 他 的 人 不 会 有 什 
么 帮助 。 

如 何 解释 基于 谷 本 系数 的 相似 性 度量 得 到 的 NaN ( 非 数字 ) 结果 呢 ? 将 它 列 出 是 为 了 凸显 该 
度量 方式 的 特殊 性 。 虽 然 所 有 的 相似 性 度量 都 返回 一 个 介 于 -1~1 之 间 的 值 ， 而 且 值 越 高 意味 着 相 
似 性 越 大 , 但 每 个 相似 性 度量 下 的 值 并 不 代表 相同 的 含义 。 这 是 普遍 的 真理 ， 而 非 Mahout 故 意 为 
之 。 例 如 ， 在 基于 皮尔 森 相 关系 数 的 度量 中 0.$ 表 示 中 等 相似 度 ， 然 而 对 于 谷 本 系数 ，0.5 意 味 着 
两 个 用 户 非常 相似 : 他 们 所 共 知 的 物品 占 了 全 部 物品 的 一 半 。 

即使 0.7~0.95 的 国 值 对 于 其 他 度量 是 合理 的 ， 但 对 于 其 于 谷 本 系数 的 相似 性 度量 而 言 ， 它 们 
却 相 当 大 。 对 于 每 次 测试 ， 这 个 门槛 都 设 得 太 高 了 ， 导 致 无 法 建立 用 户 的 邻 域 ! 这 里 ,也 许 从 0.4 
回 下 测试 国 值 更 为 有 有 用。 事实 上 ， 设 国 值 为 0.3， 最 佳 的 评 佑 分 值 接近 1.2。 

类 似 地 , 虽然 对 于 n 个 最 近邻 构成 的 邻 域 数据 显然 存在 一 个 最 优 的 n 值 , 但 是 对 于 基于 浆 值 的 
用 户 邻 域 ， 根 本 不 存在 一 个 同样 的 最 优 值 。 例 如 ， 基 于 欧 氏 距离 的 相似 性 度量 似乎 当 阔 值 增加 时 
会 取得 更 好 的 结果 。 对 于 在 邻 域 中 的 那些 最 有 价值 用 户 , 它们 基于 欧 氏 距离 的 相似 度 大 体 上 应 该 
超过 0.95。 那 么 取 0.99 会 怎样 ? 或 者 0.999? 评估 结果 反而 下 降 为 1.35 左 右 ; 不 是 很 糟 ， 但 显然 并 
非 最 好 的 推荐 程序 。 

你 可 以 继续 寻找 更 好 的 配置 参数 。 但 是 ， 这 里 我 们 在 Mahout 中 选用 的 最 佳 方案 为 : 

口 基于 用 户 的 推荐 程序 ; 

口 欧 氏 距离 相似 性 度量 ; 

口 两 个 最 近邻 的 邻 域 。 


5.2.2 ”基于 物品 的 推荐 程序 


基于 物品 的 推荐 程序 只 需要 选择 一 种 物品 的 相似 性 度量 方法 。 最 二 接 的 方法 是 把 每 个 相似 性 
度量 部 尝试 一 裔 ， 看 哪 种 最 好 用 。 这 样 做 之 后 的 输出 结果 汇总 在 表 5-3 中 。 


5.2 ”找到 一 个 有 效 的 推荐 程序 03 


表 5-3 基于 多 种 不 同 的 相似 性 度量 评估 一 个 基于 物品 的 推荐 程序 ， 得 到 估 
计 和 实际 偏好 值 之 间 的 平均 绝对 差 值 


相似 性 度量 标准 评 ”分 
欧 氏 距离 2.36 
皮尔 逊 相关 系数 2 和 
对 数 似 然 2.38 
谷 本 系数 2.40 


评分 显然 下 降 很 多 ; 平均 误差 ， 即 估计 值 和 实际 值 的 平均 差 值 ， 翻 了 大 概 两 倍 ， 具 体 值 超过 
了 2。 对 于 上 述 数 据 ， 基 于 物品 的 推荐 方法 不 太 有 效 。 为 什么 呢 ? 之 前 ， 算 法 以 基于 用 户 的 方式 
计算 用 户 间 的 相似 度 ， 以 用 户 对 其 他 用 户 的 档案 评分 为 依据 。 现 在 , 它 计 算 的 是 用 户 档案 之 间 的 
相似 度 ,， 依据 的 是 其 他 用 户 对 档案 的 评分 。 也 许 这 样 做 的 意义 不 大 : 评分 所 表达 的 信息 ， 更 多 是 
关于 评价 者 (rater ) 的 ， 而 不 是 关于 被 评价 档案 ( rated profile ) 的 。 

无 论 如 何 ， 从 结果 中 可 以 清晰 地 看 到 : 在 这 里 ， 基 于 物品 的 推荐 并 非 最 佳 选择 。 


5.2.3 ”slope-one 推 厦 程 友 


回顾 一 下 ，slope-one 推 存 程 序 在 数据 模型 中 的 大 多 数 物品 对 之 间 求 得 一 个 差 值 。 这 里 有 
168 791 个 物品 ( 档案 )， 就 意味 着 潜在 存储 了 280 亿 个 差 值 一 一 它 过 于 庞大 而 无 法 存 和 内存。 或 
许可 以 在 数据 库 中 存储 这 些 差 值 ， 但 这 会 极 大 地 降低 性 能 。 

华 运 的 是 ,还 有 邦 一 种 选择 ， 即 通过 和 框架 将 存储 的 差 值 个 效 限 制 在 大 约 一 千 万 个 , 如 代码 清 
单 5-1 所 示 。 框 架 会 试图 选择 最 有 用 的 差 值 来 保存 。 这 里 所 指 的 最 有 用 的 差 值 是 指 那 些 最 经 常 一 
起 出 现 的 物品 对 之 间 的 差 值 。 例 如 ， 如 果 物 品 A 和 B 出 现在 几 百 个 用 户 的 偏好 值 中 ， 在 它们 的 偏 
好 值 中 的 平均 差 值 会 非常 大 ， 而 且 是 有 用 的 。 如 果 A 和 B 仪 一 起 出 现在 一 个 用 户 的 偏好 值 中 ， 它 
观 多 的 是 一 个 巧合 的 数据 ， 而 不 值得 去 存储 。 


代码 清单 5-1 通过 MemoryDiffstorage 限 制 内 存 占 有 量 


DiffStorage diffStorage = new MemoryDiffStorage!l 
model, Weighting.WEIGHTED, 10000000L); 
return new SlopeoneRecommender 
model, Weighting .WEIGHTED, Weighting .WEIGHTED, diffStorage}):; 


通过 检查 Mahout 输 出 的 日 志 可 知 ， 这 个 方法 所 占用 的 内 存量 大 约 为 1.5 GB。 你 还 会 注意 到 
Slope-one 的 速度 ， 在 我 们 做 测试 的 工作 站 上 ， 平 均 的 推荐 时 间 小 于 10 ms， 而 其 他 算法 则 需要 大 
约 200 ms。 

评估 结果 为 1.41 左 右 。 这 还 不 错 ， 但 并 没有 好 到 基于 用 户 的 推荐 的 水 平 。 似 乎 对 于 这 个 特定 
的 数据 集 ， 没 有 必要 花 力 气 使 用 Slope-one。 


5.2.4 评估 查 准 率 和 查 全 率 


全 
之 前 的 案例 试用 了 基于 对 数 似 然 比 的 相似 性 度量 和 基于 谷 本 系数 的 相似 性 度量 ,它们 都 没有 使 


64 第 5 章 让 推荐 程序 实用 化 


用 用 户 的 俩 好 值 。 但 是 , 这 些 和 案例 部 无 法 对 完全 忽略 俩 好 值 的 推荐 程序 进行 评价 。 无 法 以 相同 的 方 
式 评估 这 些 推 荐 程序 一 一 没有 估计 的 偏好 值 可 以 去 和 实际 值 做 比较 ， 因 为 根本 就 没有 偏好 值 。 

使 用 RecommenderIRStatsEvaluator 可 以 比较 这 些 推 大 程序 相对 于 当前 最 住 方案 (基于 
用 户 的 推荐 程序 ， 采 用 欧 氏 距离 测度 上 且 邻 域 为 2 ) 的 查 准 率 和 查 全 率 。 该 评估 程序 显示 了 推荐 结 
采 为 10 时 的 查 准 率 和 查 全 率 ( 就 是 说 ， 查 准 率 和 查 全 率 由 前 10 个 推荐 结果 来 评判 )， 它 们 分 别 约 
为 3.6% 和 5%。 信 似乎 比较 低 : 这 个 推荐 程序 基本 不 会 推荐 用 户 目 己 评 分 高 的 那些 档案 。 不 过 在 
该 场景 下， 这 未 必 是 坏事 。 可 以 想象 用 户 在 约会 网 站 上 所 能 找到 的 、 可 评 为 10 分 的 完美 档案 可 能 
有 很 多 ,但 用 户 过 到 和 评价 过 的 大 概 只 占 其 中 很 少 一 部 分 ,最 好 是 由 推荐 程序 来 提出 更 好 的 建议 ， 
而 不 是 仅 给 出 用 户 评 过 分 的 那些 档案 ! 的 确 如 此 ,这 正 是 推荐 程序 所 应 传达 的 , 那些 用 户 评分 很 
高 的 档案 并 不 一 定 是 他 们 最 豆 欢 的 ， 除 非 他 们 真 的 看 过 每 一 个 已 有 的 档案 。 

当然 ， 另 一 种 解释 是 推荐 程序 的 执行 有 问题 。 但 是 ,鉴于 这 个 推 存 程 序 可 以 很 好 地 佑 计 出 偶 
好 值 ， 所 估计 的 分 值 在 10 分 制 中 只 有 大 约 1 分 左右 的 误差 。 因 此 ， 上 一 段 的 解释 应 该 是 对 的 。 

如 果 我 们 忽略 评分 数据 进行 推荐 ， 需 使 用 Mahout 的 GenericBooleanPrefDataModel、 
GenericBooleanprefUserBasedRecommender 和 一 个 像 LogLikelihnoodsimilarity 这 样 
的 合适 的 相似 性 度量 , 此 时 就 会 出 现 一 件 有 趣 的 现象 .在 这 个 案例 中 , 查 准 率 和 查 全 率 增长 到 22%4 
LT 使 用 TanimotocoefficientSsimilarity 也 会 看 到 类 似 的 结果 。 这 些 结果 表面 上 看 起 来 
变 好 了 ,它们 意味 大 这 种 ( 基于 布尔 型 偏好 的 ) 推荐 引擎 更 擅长 加 用 户 推荐 他 们 可 能 已 经 见 过 的 
那些 档案 。 如 果 有 确 浅 的 证 据 显 示 用 户 确 实 看 过 了 大 部 分 档案 , 他 们 实际 评 为 高 分 的 档案 会 是 指 
引 我 们 找到 正确 答案 的 一 个 明确 信号 。 但 是 ， 对 于 有 儿 十 个 档案 的 约会 网 站 ， 这 并 不 适用 。 

在 其 他 场景 中 ,获得 高 的 查 准 率 和 奉 全 率 也 许 是 很 重要 的 , 但 在 这 里 似乎 并 非 如 此 。 至 于 我 
们 ， 仍 将 继续 使 用 之 前 基于 用 户 的 推荐 程序 (基于 欧 氏 距 离 相 似 度 和 大 小 为 2 的 邻 域 )， 而 不 会 改 
用 其 他 的 推 存 程序 。 


5.2.5 评估 性 能 


评估 我 们 所 选择 的 推荐 程序 的 运行 性 能 非常 重要 。 加 为 要 支持 实时 查询 ， 所 以 实现 一 个 要 在 
儿 分 钟 时 间 内 完成 推荐 的 推荐 程序 意义 不 大 。 

与 以 前 一 样 ， 可 以 使 用 DoadqEvaluator 类 评估 每 个 推荐 所 用 的 时 间 。 我 们 在 该 数据 集 上 运 
行 这 个 推荐 程序 ， 采 用 如 下 的 标志 类 参数 : -server -d64 -Xmx2048m -XX:+UseParallelGcC 
-XX:+UseParalleloldGcc。 我 们 会 发 现在 测试 机 上 平均 每 次 推荐 会 用 218 ms。 这 个 应 用 在 运行 
时 仅 占 用 1 GB 左 右 的 堆 空 间 。 这些 测 试 结 采 是 否 可 被 接受 , 这 依赖 于 应 用 的 需求 和 可 用 的 便 件 资 
源 。 对 于 许多 应 用 而 言 ， 这 些 测 试 数据 应 该 还 是 符合 要 求 的 。 

至 此 , 我 们 只 是 在 手 尖 的 数据 集 上 应 用 了 标准 的 Mahout 推 荐 程序 。 我 们 没有 做 任何 定制 。 但 
是 ,为 一 个 特定 的 数据 集 或 网 站 生成 最 优 的 推荐 系统 不 可 避免 地 需要 利用 所 有 已 知 的 信息 。 进 而 ， 
这 需要 对 Mahout 中 的 那些 标准 实现 做 些 定 制 和 特殊 处 理 , 来 利用 关于 手头 问题 的 特殊 属性 。 在 下 
一 六， 我 们 将 对 现 有 的 Mahout 实 现 做 一 些 扩 展 ， 利 用 约会 数据 的 特定 属性 来 提高 推 存 的 质量 。 
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5.3 引入 特定 域 的 信息 


至 今 推荐 程序 没有 利用 任何 特定 的 背景 知识 。 具 体 来 讲 ， 它 还 没有 利用 这 样 的 事实 ， 即 评分 
发 生 在 人 和 人 之 间 。 推 荐 程序 完全 使 用 用 户 档案 评分 ， 就 好 像 针 对 图 书 、 汽 车 或 水 果 的 评分 。 但 
是 ,通常 可 以 通过 数据 中 额外 的 信息 来 改善 推荐 质量 。 

本 节 中 ， 我 们 将 寻求 引入 该 数据 集中 一 个 尚未 使 用 的 重要 信息 : 性 别 〈gender )。 我 们 基于 
性 别 定制 了 一 个 Itemsimilarity 度 量 ， 并 力求 避免 推荐 性 别 不 当 的 用 户 。 


5.3.1 采用 一 个 定制 的 物品 相似 性 度量 


为 已 经 给 定 了 许多 档案 的 性 别 ， 你 可 以 仅仅 基于 性 别 为 档案 对 建立 一 个 简单 的 相似 性 度 
量 。 因 为 档案 就 是 这 里 的 物品 ， 所 以 它 在 框架 中 应 该 是 ItemSimilarity。 

例如 ， 认 为 两 个 男性 或 者 两 个 女性 档案 非常 相似 ， 并 设置 它们 的 相似 度 为 1.0。 假 定 男性 和 女 
性 档案 之 间 的 相似 度 为 -1.0。 最 后 , 一 对 档案 中 一 个 或 两 个 的 性 别 未 知 ， 则 设 两 者 的 相似 度 为 0.0。 

这 个 想法 很 简单 , 也 许 过 度 简 单 了 。 它 应 该 会 非常 快 , 但 是 会 在 度量 计算 中 丢失 与 评分 相关 
的 所 有 信息 。 对 于 该 实验 ， 我 们 采用 一 个 基于 物品 的 推荐 程序 ， 如 下 所 示 。 


代码 清单 5-2 ”一 个 基于 性 别 的 物品 相似 性 度量 


public class GenderIitemSimilarity implements ItLemSlmlI1arltv f{ 


private final FastIDSet men:; 


private final FastIiDSet women; 


public GenderIitemSimilarity (FastIDSet men, FagtIiDSet women) { 
this.men = men:; 
this.women = women; 


} 


public double itemSimilarity (long profileID1, long profileID2) { 
Boolean profilelTlsMan = isMan (profileIDl).; 
if {profilelIsMan == null) { 
return 0.0; 
} 
Boolean proftile2IsMan = isMan{profileIiD2);: 
if (profile2IsMan == null) 1{ 


Ptr ts 
} 
return profilelIsMan == proftile2IsMan ? 1.0 : -1.0; 
} 


public doublel[l] itemSimilarities {long itemIiD1i, longl] itemIiD2s) { 
double[] result = new double[itemID2s.l]ength]; 
for (int i = 0; i < itemID2s.length; i++) f 
result[i] = itemSimilarity (itemID1l, itemID2s[i]}).; 
} 


return result; 
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} 


private Boolean isMan(long profileID}) 1{ 


If (men.contains (profileID)) { 
return Boolean. TRUE. 


if (women.contains (profileID)) 1{ 
return Boolean,FALSE: 


return null; 


} 


public void refresh{(Collection<Refreshable> alreadyRefreshed) { 
// 什么 也 不 做 
} 

】 

和 前 面 的 案例 一 样 ， 这 个 Itemsimilaritv 度 量 可 以 与 标准 的 GenericItemBased- 
Recommender 一 起 使 用 ,我们 可 以 评估 这 个 推荐 程序 的 精度 。 这 个 概念 很 有 趣 ，, 但 是 这 里 得 到 
的 结果 为 2.35， 并 不 比 其 他 的 度量 更 好 。 如 果 可 以 获得 更 多 的 信息 ， 比 如 每 个 档案 所 表达 的 兴趣 
和 爱好 ， 束 可 以 作出 一 个 更 有 意义 的 相似 性 度量 ， 也 许 会 得 到 更 好 的 结 

但 是 , 这 个 示例 给 出 了 基于 物品 的 推荐 程序 的 主要 优点 : 它 提供 了 一 种 结合 物品 自 喘 信息 的 
手段 ,这 在 推荐 程序 中 很 常见 。 从 评估 的 结 末 看 ,你 也 许 还 会 注意 到 这 种 基于 人 简捷 计算 相似 性 度 
量 的 推荐 程序 速度 有 多 快 ; 在 我 们 的 测试 方 点 上 ， 生 成 推荐 结果 的 时 间 平 均 为 15 ms 左右 。 


5.3.2 基于 内 容 进 行 推荐 


刚刚 出 现 的 一 个 要 点 ， 可 能 会 被 你 忽略 掉 : 上 一 方 讲 的 是 一 个 基于 内 容 进 行 推荐 的 条 例 。 它 
对 物品 相似 性 的 定义 不 是 基于 用 户 的 俩 好 ， 而 是 基于 物品 目 身 的 属性 。 如 前 所 述 ， Mahout 并 不 可 
供 基 于 内 容 推荐 的 实现 , 但 是 却 文 持 扩展 并 提供 了 APIL, 允许 你 在 框架 中 写 代 码 来 部 署 这 种 实现 。 

对 于 仅 基 于 用 户 偏好 的 协同 过 渡 方 法 而 言 , 这 种 实现 是 一 个 很 好 的 补充 。 你 可 以 很 好 地 引入 
目 己 对 物品 (物品 在 此 处 是 指 和 人 ) 的 知识 ,来 强化 你 手 里 的 用 户 偏好 数据 ， 进 而 有 望 生成 更 好 的 
推荐 结果 。 

遗憾 的 是 , 前 面 的 物品 相似 性 度量 针对 的 是 手头 的 特定 问题 域 。 这 种 度量 对 其 他 问题 域 又 无 
带 助 : 推 存 食 品 、 电 影 或 者 旅行 目的 地 等 。 这 就 是 它 没 有 成 为 框 染 一 部 分 的 原因 。 但 是 只 要 你 拥 
有 特定 问题 域 的 知识 , 它 就 是 一 种 可 行 和 有 力 的 方法 , 它 在 描述 物品 相关 关系 时 比 用 户 仿 好 更 为 
有 效 。 


5.3.3 利用 IDRescorer 修 改 推荐 结果 


你 可 能 已 经 观察 到 Recommender.recommend() 方 法 中 有 一 个 类 型 为 TDRescorer 的 用 
final 修 饰 的 可 选 参数 ， 你 可 以 不 调用 recommend (long userID, int howMany) ， 而 调用 
recommend (long userID, int howMany, IDRescorer rescorer)。 这 个 接口 的 实现 多 次 
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假如 你 正在 为 一 个 电子 商务 网 站 的 用 户 推荐 图 书 。 如 果 用 户 正 在 浏览 的 是 悬疑 小 说 , 那么 在 
向 该 用 户 推荐 图 书 时 , 你 可 能 希望 将 所 有 悬疑 小 说 的 估计 偏好 值 都 提高 一 些 。 你 或 许 还 希望 确保 
不 去 推荐 那些 缺 货 的 书 。IDRescorer 可 以 帮助 你 做 到 这 一 点 。 下 面 的 代码 清单 显示 了 一 个 
IDRescorer 的 实现 , 它 根 据 这 个 虚构 的 书 商 来 虚构 出 一 些 实现 类 ， 如 cenre (流派 )， 并 以 此 封 
装 了 这 一 逻辑 。 


代码 清单 5-3 示例 IDRescorer 忽 略 缺 贷 图 书 并 提高 一 个 流派 的 估计 值 


Public class GenreRescorer implements IDRescorer 1 


private final Genre currentGenre,; 


PUublic GenreRescorer (Genre currentGenre) { 


this.currentGenre = currentGenre: 
} 
public double rescorellong itemID, double originalScore) 1 deoomionager 
Book book = BookManager. lookupBook (itemID).; 
if (book.getGenre() .equals (currentGenre)) 1 
return originalScore * 1.2,， 
) 本 将 估计 值 提高 20% 


return originalScore; 


, | 其 他 保持 原状 


Public boolean isFiltered(long itemID) { 
Book book = BookManager.1lookupBook (itemID).; 
return book.1isOutofstock!{().; 了 一 一 过 滤 缺 货 的 图 书 
} 
} 


rescore () 方 法 将 悬疑 小 说 的 佑 计 俩 好 值 提 高 了 。:isFiltered() 方 法 显示 了 IDRescorer 
的 另 一 个 用 途 : 它 确 保 了 缺 贷 的 图 书 不 会 被 推荐 。 
这 只 是 一 个 示例 , 和 我 们 的 推荐 网 站 没有 关系 。 让 我 们 把 这 个 思想 应 用 到 可 用 的 附加 数据 上 


5.3.4 在 IDRescorer 中 引入 性 别 


对 于 在 乎 性 别 的 用 户 ，IDRescorer 能 够 对 物品 或 用 户 档 案 进 行 过 滤 。 首 先 ， 可 以 通过 检查 
已 经 评价 过 的 档案 的 性 别 , 来 猪 测 该 用 户 所 偏好 的 性 别 ,。 然后 , 就 可 以 滤 除 与 之 性 别 相 反 的 档案 
如 下 所 示 。 
代码 清单 5-4 ”基于 性 别 的 IDRescorer 实 现 


Public class GenderRescorer implements IDRescorer { 


private final FastIDSet men.; 
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private final FastIDSet women; 间 缓存 更 多 对 男性 评分 的 用 户 
private final FastIDSet usersRateMoreMen:; 

private final FastIDSet usersRateLessMen; 

private final boolean filterMen.; 


Public GenderRescorer (FastIDSet men, 


FastIDSet women, 
FastIDSet usersRateMoreMen, 
FastIDSet usersRateLessMen, 


long userID, DataModel model) 


throws TasteException { 


this.men = men.; 

this.women = women.; 

this.usersRateMoreMen = usersRateMoreMen,; 
this.usersRateLessMen = usersRateLessMen:; 
this.filterMen = ratesMoreMen{userID, modell): 


} 


public static EastIDSet [] parseMenWomen (File genderFile) 之 后 分 别 被 调用 
throws IOException { 
FastIDSet men = new FastIDSet (50000}; 
FastIDSet women = new FastIDSet{(S50000}):; 


for (String line : new FileLinelIterable(genderFile)}) { 
int comma = line.indexoOf{(','),; 
char gender = line.charAt {comma + 1); 
if (gender == 'U') { 
continue; 
} 
long profileID = Long.parseLong (line.substring(0, comma)); 
if {gender == 'M') { 


men.add (profileID).; 
} else ({ 
women.add (profileID).; 


) | 快速 访 问 的 重新 优化 
men.rehasht{):; 

women .rehash().; 

return new FastIDSetl] { men, women }: 


} 


private boolean ratesMoreMen (long userID, DataModel model) 
throws TasteBxception { 
IE (usersRateMoreMen.contains (userID)) { 
return true; 
} 
if (usersRateLessMen.containes (userID)) f{ 
return false; 


} 


PreferenceArray Drefs = model .getPreferencesFromUser (userID)., 
int menCount = 0: 

int womenCount = 0; 

for (int 1 = 0; i < prefs.length(); i++) { 


long profileID = prets.get(i) .getIitemID!(). 
It (men.contains (profileID})}) { 
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menCount++;} 
} else if (women.contains (profileID})) { 
WOMmenCount++: 
} 站 
8 更 喜欢 男性 档案 
boolean ratesMoreMen = menCount > womemCounmnt ; 


if (ratesMoreMen) { 
usersRateMoreMen.add (userID):; 
} else { 
usersRateLessMen.add (userID)}): 
} 
return ratesMoreMen: 


} 


public double rescore(long profileID, double originalScore) { 将 被 排除 的 档案 赋 
return isFiltered (profileID) 值 为 NaN 
? Double.NaN : originalScore; 


, 


public boolean isFiltered(long profileID) { 
return filterMen ? men.contains (profileID) : women.contains (profileID}).:; 


} 

} 

这 个 示例 代码 做 了 几 件 事情 。parseMenwomen () 方 法 解析 genderdat 并 创建 了 两 个 档案 ID 集 
合 一 一 已 知 是 男性 的 档案 用 和 已 知 是 女性 的 档案 ID。 人 解析 独 立 于 任何 特定 的 GenderRescorer 
实例 之 外 , 因为 这 些 集合 会 被 多 次 重用 。ratesMoreMen () 方 法 用 来 决定 并 记 住 一 个 用 户 是 否 会 
更 多 地 对 男性 或 女性 档案 评分 。 这 些 结 果 人 被 绥 存 在 两 个 额外 的 集合 中 。 于 是 这 个 
GenderRescorer 的 实例 通过 rescore() 返 回 NaN, 或 从 isFiltered() 返 回 true, 很 容易 在 适 
当 情 况 下 排除 挥 男性 或 女性 。 

这 应 该 对 推荐 的 质量 会 帮助 , 但 不 会 很 大 。 大 体 上 ,对 男性 档案 评分 的 女性 已 经 被 推荐 了 男 
性 档案 ,因为 她 们 最 类 似 于 其 他 对 男性 档 生 评 分 的 女性 。 这 个 机 制 通 过 从 结果 中 排除 女性 档案 来 
确保 这 一 点 。 这 会 让 推荐 程序 其 至 不 去 试图 估计 这 些 女性 对 女性 档 双 的 偏好 ， 因 为 这 种 佑 计 纯 粹 
是 腾 测 ， 很 可 能 会 出 错 。 当然 ， 这 个 IDRescorer 的 效果 受 限 于 已 有 数据 的 质量 : 只 有 大 约 一 半 
档案 的 性 别 是 已 知 的 。 


5.3.5” 封 滩 一 个 定制 的 推 在 程序 


对 于 我 们 而 言 ， 将 现 有 的 推荐 引 | 苟 和 这 个 新 IDRescorer 封 装 在 一 个 实现 中 是 很 有 和 用 的 。 这 
样 ， 我 们 可 以 在 5.5 诈 部署 一 个 完整 的 推荐 3| 苟 。 

下 面 的 代码 清单 显示 了 一 个 推荐 程序 实现 ， 其 中 包含 了 前 面 所 讲 的 基于 用 户 的 推荐 引擎 。 
代码 清单 5-5 ”完成 面 品 Libimseti 的 推 存 程 序 


Public class LibimsetiRecommender implements Recornmmender 1{ 


private final Recommender delegate:; 
private final DataModel model: 
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Private final FastIDSet men: 


private final FastIDSet women:; 


inal FastIDSet usersRateMoreMen: 


Private final FastIDSet usersRateLessMen.: 


Public LibimsetiRecommender{() throws TasteException, IOException 1{ 
thisl(new FileDataModel ( 
readResourceToTempFilel('"ratings.dat")).; 


在 生产 环境 下 需要 
readResourceToTempFile() 


’ 


Public LibimsetiRecommender (DataModel] model) 


throws TasteException, IOException { 


UserSimilarity similarity = _ 构建 基于 用 户 的 推荐 程序 


new EuclideanDistanceSimilarity (model 


> 
局 


UserNeighborhood neighborhood = 
new NearestNUserNeighborhood(2, similarity, model}).; 


delegate = 

new GenericUserBasedRecormmender (model, neighborhood, similarity): 
this.model = model; 
FastIDSet[|] menWomen = GenderRescorer.parseMenWomen! 


readResourceToTempFilel('"'gender.dat"))}). 


men = menWomenlo0l]:; 
women = menWomen{[lil: 
USersRateMoreMen = new FastIDSet (50000).; 
usersRateLessMen = new FastIiDSet (50000); 
} 
Public List<RecommendedIitem> recommend{l]long UserID，1nL howMany) 
throws TasteException f{ 


IDRescorer rescorer = new GenderRescorer! 


men, WoOomen, USerlID, usersRateMoreMen, usersRateLessMen, 
userID, model): 


return delegate.recommend (userIiD, howMany, rescorer}): 在 所 有 推荐 上 使 用 
} GenderRescorer 


public List<RecommendedIitem> recommend {long userIiD, 


int howMany, 
IDRescorer rescorer) 
throws TasteException { 
return delegate.recommend (userIiD, howMany, rescorer);， 


} 


public flioat estimatePreferencel(long userIiD, long itemID) 


throws TasteException { 
IDRescorer rescorer = new GenderRescorer! 
men, WOmMen, USerID, usersRateMoreMen, usersRateDLessMen, 
UserID, model}.: 
return (float) rescorer.rescorel! 重 算 估 计 偏 好 
itemIiD, delegate.estimatePpreference {userIiD, itemID)):; 


} 


Public void setPpreference{(long userID, long itemID, float value) 
throws TasteException { 
Gdelegate.setPreference (userID, itemID, value): 


} 委托 给 底层 的 推荐 程序 


public void removePreferencel(long userID, long itemID) 
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throws TasteException { 


delegate.removePreference (userID, itemID):; 


} 


public DataModel getDataModel{(}) { 
return delegate.getDataModel (}); 
} 


Public void refresh(Collection<Refreshable> alreadyRefreshed) { 
delegate.refreshlalreadyRefreshed).， 
} 


} 

这 是 一 个 小 而 完整 的 推荐 引擎 封 次 。 如 采 对 它 进 行 评 佑 ， 绪 有 末 大 约 为 1.18〈 这 实际 上 是 恒定 
不 变 的 )， 最 好 改 用 这 种 机 制 来 避免 一 些 有 严重 偶 差 的 推荐 。 运 行 时 间 会 增加 到 500 ms 左右 一 一 
重 算 引 入 了 大 量 的 开销 。 对 于 我 们 的 目标 而 言 ， 这 一 折 中 是 我 们 可 以 接受 的 ， 而 


Libimset ijRecommender 下 是 这 个 约会 网 站 的 最 终 实 现 。 
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当 你 创建 一 个 实用 化 的 推荐 程序 时 会 马上 直到 为 一 个 第 见 问题 , 即 如 何 处 理 那 些 尚 未 注册 的 
用 户 。 例 如 ,如何 处 理 在 一 个 电子 商务 网 站 上 浏览 商品 的 新 用 户 ? 对 于 网 站 而 言 ， 这 个 匿名 用 户 
既 没 有 浏览 记录 , 也 无 购买 历史 , 更 不 用 说 ID 号 了 ? 为 这 样 的 用 户 进 行 推荐 的 问题 在 于 无 数据 可 
用 ， 故 而 称 为 冷 局 动 问题 。 但 能 够 为 这 样 的 用 户 推荐 商品 也 是 有 用 的 。 

一 种 极 亲 的 方法 是 不 做 个 性 化 的 推荐 。 束 是 说 ， 当 面 对 一 个 新 用 户 时 ,提供 一 个 普通 的 挛 品 
预定 义 列表 作为 推荐 。 这 样 做 很 侧 单 ， 并 且 通 种 比 不 做 强 ,， 但 不 在 我 们 的 选择 之 列 。Mahout 所 关 
注 的 是 个 性 化 推 存 。 

为 一 个 极端 做 法 是 ,网 站 将 这 种 匿名 用 户 在 第 一 次 访问 时 丈 升 级 为 大 实 用 户 , 赋 了 其 一 个 ID， 
并 根据 网 络 会 话 来 跟踪 其 行为 。 这 也 有 效 末 ,虽然 这 会 海 在 地 导致 用 户 数 爆发 式 增 长 ， 但 不 难 想 
象 其 中 许多 用 户 永远 不 会 再 来 且 已 有 的 信息 很 少 。 

后 者 也 不 是 我 们 寻找 的 选项 。 相 反 , 我 们 在 两 种 极端 做 法 之 间 寻 求 冬 协 方案 : 生成 临时 用 户 
并 将 所 有 的 匿名 用 户 当做 一 个 用 户 。 


5.4.1 利用 PLusaAnonymousUserDataMode1 处 理 I 临 时 用 户 


通过 PlusaAnonymousUserDataMode1 类 ,这 个 推荐 程序 框架 提供 了 一 个 临时 增加 匿名 用 户 
的 信息 到 pataModel 的 简单 方法 。 这 种 方法 将 匿名 用 户 视 为 真实 用 户 , 但 是 这 仅 适 用 于 进行 推 存 
的 时 候 。 真 实 的 底层 pataModel1 中 不 会 增加 这 些 匿名 用 户 , 也 不 会 得 知 它们 的 存在 。 对 于 现 有 的 
DataModel 而 言 PlusAnonymousUserDataModel 是 在 其 上 的 -个 封装 可 以 简单 地 做 蔡 换 。 

PlusAnonymousUserDataModel 类 在 临时 用 户 的 处 理 上 有 一 个 特殊 的 地 方 ， 它 每 次 只 处 理 
一 个 此 类 用 户 的 偏好 值 。 基 于 这 个 类 的 Recommender 同 样 必须 一 次 只 处 理 一 个 匿名 用 户 。 

下 面 的 代码 清 单 展 不 LipimsetiWithAnonymousRecommender, 它 扩 展 了 先前 的 
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LibimsetiRecommender， 采 用 了 一 个 可 以 回 匿 名 用 户 进 行 推荐 的 方法 。 当 然 ， 它 取 人 偏好 值 作 


为 输入 ， 而 不 是 用 户 ID。 
代码 清单 5-6 ”Libfimseti 上 的 匿名 用 户 推 荐 


Public class LibimsetiWithAnonymousRecommender 
extends LibimsetiRecommender 1 


private final PlusAnonymousUserDataModel plusAnonymousModel.; 


public LibimsetiWithaAnonymousRecommender() 


throws TasteException, IOException { 
thistnew FileDataModel i 
readResourceToTempFilel"ratings.dat")))}).; 


} 


public LibimsetiWithaAnonymousRecommender (DataModel model) 
throws TasteException, IOException { 
super Inew PlusAnonymousUserDataModel (model)).: 
PlusAnonymousModel] = 
‘(PlusAnonymousUserDataModel) getDataModel (); 


封装 底层 的 DataMode1l 


} 
使 用 同步 


Public synchronized List<RecommendedItem> recommend! 
PreferenceArray anonymousUserprefs, int howMany) 
throws TasteException { 

PlusAnonymousModel .setTempPrefs (anonymousUserprefs); 
List<RecommendedItem> recommendations = 


recommend (PlusAnonymousUserDataModel .TEMP USER ID， 设置 匿名 用 户 的 ID 


howMany, null)}): 
PlusAnonymousModel .clearTempPrefs!()}).; 
return recommendations; 


} 


public static void main{(String[] args) throws Exception { 
PreferenceArray anonymousPrefs = 
new GenericUserPreferenceArray (3); 


anonymousPrefs.setUserID'(0, 因 存储 匿名 用 户 的 偏好 值 


PljusAnonymousUserDataModel .TEMP USER ID) ; 
anonymousPrefs.setItemID(0O, 123L); 
anonymousPrefs.setValue{t0, 1.0f}); 
anonymousPrefs.setIitemID(1, 123L); 
anonymousPrefs.setValuet{l1l, 3.0f}).; 
anonymousPrefs.setItemID(2, 123L); 
anonymousPrefs.setValue{2, 2.0f),; 


LibimsetiWithAnonymousRecommender recommender = 
new LibimsetiWithAnonymousRecommender ().; 
List<RecommendedItem> recommendations = 
recommender.recommend (anonymousPrefs, 10}).;: 
System.out.println (recommendations}),;} 
} 
// readResourceToTempFile 实 现 被 所 略 
Ba 


为 外 ， 这 个 实现 和 任何 其 他 推荐 程序 一 样 工作 ， 也 可 以 用 于 向 真 实用 户 


进行 推荐 。 
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5.4.2 ”聚合 匿名 用 户 


还 可 以 将 所 有 的 匿名 用 户 视 为 单一 用 户 , 这 会 催化 操作 。 不 再 分 别 跟 踩 海 在 的 用 户 并 单独 存 
储 他 们 的 浏览 历史 ,你 可 以 将 所 有 这 样 的 用 户 看 做 一 个 大 的 临时 用 户 。 但 这 依赖 于 一 种 假设 ， 即 
所 有 这 些 用 户 的 行为 是 相似 的 。 

在 任何 时 候 ， 这 个 技术 郡 可 以 为 匿名 用 户 生成 推荐 ， 并 非常 迅速 。 事 实 上 ， 因 为 结 末 对 于 所 有 
的 匿名 用 户 都 是 一 样 的 , 推荐 结果 的 集合 可 以 被 存储 并 周期 性 地 重 算 , 而 不 是 每 次 请 求 都 计算 一 次 。 
在 东 种 意义 上 ， 这 种 变化 比 根本 不 做 个 性 化 推荐 略 好 ， 从 而 避免 匿名 用 户 总 是 看 到 固定 的 推 存 。 


5.5 ”创建 一 个 支持 Web 访问 的 推荐 程序 


问题 不 仅仅 是 创建 一 个 在 IDE 环 境 中 运行 的 推荐 程序 ， 而 是 要 把 推荐 程序 部 署 在 真实 的 产品 
应 用 中 。 

你 也 许 打算 在 Java 和 Mahout 中 设计 并 测试 好 推荐 程序 , 然后 将 其 作为 一 个 应 用 架构 中 单独 的 
组 件 进行 部 署 ， 而 不 是 将 它 舱 入 到 应 用 的 Java 代 码 中 。Web 服 务 通常 使 用 简单 的 HTTP 或 者 SOAP 
之 类 的 Web 服 务 协 议 。 在 这 里 ， 推 荐 程序 部 署 为 一 个 Web 上 可 见 的 服务 ， 或 者 是 一 个 Web 容 硕 中 
的 独立 组 件 ， 甚 至 作为 目 己 的 服务 进程 。 这 增加 了 复杂 性 , 但 会 让 这 个 服务 可 以 由 基于 其 他 语言 
编写 或 者 运行 在 其 他 机 如 上 的 应 用 来 访问 。 

好 在 利用 Mahout 委 容易 将 推 存 程序 拥 绑 成 可 部 普 的 WAR〈 Web archive ) 文件 。 这 一 组 件 能 够 
很 好 地 部 署 在 Java servlet 容 需 中 , 如 Tomcat ( http://tomcat.apache.org/ ) 或 Resin ( http://www.caucho. 
com/resin/ )。 如 图 $-3 所 了 示 ， 该 WAR 文 件 封装 了 Recommendqer 实 现 ， 通 过 RecommenderServLet 这 
个 价 单 的 、 基 于 servlet 的 HTTP 服 务 开 放出 来 ， 并 基于 HTTP 的 SOAP 协 议 成 为 Apache Axis 所 文 持 
的 Web 服 务 RecommenderService。 


HTTP GET 


= 序 Servlet 三 Libimseti 推 荐 程序 


SOAP over HTTP 


Servlet 容 器 


图 5-3 ”推荐 程 序 的 自动 化 WAR 封 装 及 在 servelet 容 句 中 的 部 署 
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5.5.1 封装 WAR 文 件 


在 部 署 之 前 ， 需 要 把 编译 后 的 代码 和 数据 文件 打包 为 一 个 JAR 文 件 。 在 IDE 中 编 详 好 这 段 代 
但， 进入 本 书 的 示例 目录 ， 然 后 复制 数据 集 里 的 ratings.dat 和 gender.dat 文 件 到 /src/main/resources 
目录 下 ， 再 用 下 面 的 命令 制作 出 JAR 文 件 : 

mvn package 
这 条 命令 会 将 结果 放 人 入 target/mia-0.1.jar 文 件 中 。 

然后 进入 Mahout 发 布 包 中 的 taste-web/ 模 块 目录 ， 并 从 书 中 示例 把 target/mia-0.1.jar 复 制 到 lib/ 
子 目 录 中 。 再 编辑 recommenderproperties 将 推荐 程序 命名 为 所 要 采用 的 名 称 。 如 果 你 使 用 的 是 与 
示例 相同 的 Java 包 名， 正确 的 值 应 为 mia.recommender.ch05.LibimsetiRecommender。 

现在 再 次 执行 mvn package 。 你 会 在 target/ 子 日 录 下 发 现 一 个 名 为 mahout-taste- 
webapp-0.5.war 的 文件 ( 文件 的 版 本 号 可 能 会 不 同 ， 当 你 讯 这 本 书 时 ，Mahout 应 该 已 经 发 布 了 新 
的 版 本 )。 这 个 文件 很 适合 立刻 部 署 在 Tomcat 这 样 的 servlet 容 各 中 ,事实 上 , 它 可 以 下 接 放 入 Tomcat 
的 webapps/ 目 录 而 无 顷 做 进一步 的 修改 ， 从 而 形成 一 个 可 工作 的 基于 Web 的 推荐 程序 实例 。 


注意 这 个 .war 文 件 的 名 称 将 成 为 访问 服务 时 所 用 URL 的 一 部 分 ， 你 可 以 对 它 重 命名 使 之 更 短 ， 


xpmahout.war。 


5.5.2 ”测试 部 署 


还 有 一 种 办 法 可 以 让 你 在 不 安装 Tomcat 的 情况 下 轻松 测试 包含 推荐 程序 的 Web 应 用 ， 即 使 用 
Maven 中 内 置 的 Jetty 插 件 。Jetty( http://www.mortbay.org/jetty/) 是 一 个 角 和 人 式 servlet 容 器 ， 其 功能 
与 Tomcat 和 Resin 类 似 。 

在 进行 测试 部 署 之 前 ,你 需要 确保 本 地 的 Mahout 安 装 包 已 经 编译 好 并 可 为 Maven 使 用 。 在 顶 
级 Mahout 目 录 下 执行 mvn install, 然后 可 以 去 喝 杯 咖啡 休息 一 会 儿 ， 此 时 Maven 会 下 载 其 他 依 
赖 包 、 编 译 并 运行 测试 ， 大 概 需 花费 10 分 钟 的 时 间 。 好 在 这 件 事 只 和 需 做 一 次 。 

按照 之 前 章节 所 述 将 WAR 文 件 封装 好 ,执行 export MAVEN_OPTS=-Xmx2048m 来 确保 Maven 
和 Jetty 有 足够 的 扒 空 间 。 然 后 ， 在 taste-web/ 目 录 下 执行 mvn jetty:zun-war。 这 会 在 本 地 机 顶 
的 8080 奖 口上 局 动 一 个 文 持 Web 的 推荐 服务 。 局 动 会 化 上 一 些 时 间 ,， 因 为 Mahout 要 次 载 和 分 析 数 
据 文 件 。 

通过 Web 浏 览 大 访 问 http://localhost:8080/RecommenderServlet?userID=3 束 可 以 得 到 对 用 户 ID 
3 的 推荐 。 这 正 是 外 部 应 用 从 推荐 引擎 中 获得 推荐 的 方法 ， 即 向 这 个 URL 发 送 一 个 HTTP 的 GET 请 
求 , 从 返回 的 简单 文本 中 解析 出 推荐 绪 采 : 每 行 有 一 个 估计 的 偏好 值 和 一 个 物品 ID, 优先 的 推荐 
排 在 前 面 ( 如 代码 清单 5-7 所 示 )。 
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代码 清单 5-7 对 RecommenderServlet 发 出 GET 请 求 的 输出 结 


10.0 205930 
10.0 156148 
8.0 162783 
人 208304 
717.5 143604 
7.0 210831 
7.0 173483 
.3 163100 


要 探究 更 正式 的 基于 SOAP 的 那些 Web 服 务 API， 请 访问 http:/localhost:8080/Recommender 
Service.jws?wsdl 查 看 WSDL ( Web Services Definition Language ) 文件 ， 它 定义 了 这 个 Web 服 务 的 
输入 和 输出 。 这 是 Recommender API 的 一 个 简化 版 本 。 这 个 Web 服 务 描 述 文件 可 以 为 大 多 数 Web 
服务 客户 问 所 用 ， 以 目 动 理解 并 提供 对 该 API 的 访问 。 

如 采 你 想 直 接 在 浏览 锅 中 访问 这 个 服务 ， 可 以 访问 http:/localhost:8080/RecommenderService. 
jws?method=recommend&useID=1&howMany=10 查 看 这 个 服务 基于 SOAP 的 返回 结果 。 返 回 的 结 
采集 是 相同 的 ， 只 是 显示 为 一 个 SOAP 了 响应 ( 见 图 5-4 )。 


|— <soapenv:Envelope> 
| = <soapenv:Body> 
— <recommendResponse soapenv:encodingStyle="http://schemas.xmlsoap.org/soap/encoding/"> 
— <recommendReturn soapenc:arrayType="xsd:string[][10]" xsi:type="soapenc:Array"> 
— <recommendReturn soapenc:arrayType="xsd:string[2]" xsi:type="soapenc:Array'"> 
<recommendReturn xsi:type="xsd:string">10.0</recommendReturn> 
<recommendReturn xsi:type="xsd:string">220429</recommendReturn> 
</recommendReturn> 
— <recommendReturn soapenc:arrayType="xsd:string[2]" xsi:type="soapenc:Array"> 
<recommendReturn xsi:type="xsd:string">10.0</recommendReturn> 
<recommendReturn xsi:type="Xsd:string">174211</recommendReturn> 
</recommendReturn> 


图 5-4 来 自 RecommenderService 的 SOAP 啊 应 在 浏览 器 中 的 显示 


通常 此 时 你 会 理性 地 检查 这 些 推荐 结果 。 站 在 用 户 的 立场 上 ,这 些 推 荐 是 不 是 合理 的 ? 然 
而 ,我 们 在 这 里 无 法 知道 用 户 是 谁 ， 以 及 他 们 如 欢 什么 样 的 档案 ， 故 而 无 法 对 结 灯 做 出 直观 的 
评判 。 当 你 目 己 开发 推荐 引擎 时 ， 事 情 就 不 再 是 这 般 场 景 了 ， 那 时 看 一 下 实际 的 推荐 结 末 就 会 
发 现 问 题 或 找到 有 每 改进 的 地 方 。 往 往 需 要 许多 轮 的 试验 和 修正 ,我 们 才能 使 结 灯 成 为 解决 问 
题 的 最 佳 答 案 。 


5.6 更 新 和 监控 推荐 程序 


现在 你 已 经 运行 起 来 一 个 基于 Web 的 推荐 服务 ,但 是 它 并 非 一 个 一 成 不 变 的 系统 ， 并 非 运 行 
起 来 就 可 以 不 管 。 这 是 一 个 动态 的 服务 器 ， 实时 地 接收 新 的 信息 并 返回 应 答 ， 并且 就 像 所 有 的 生 
产 系 统一 样 ， 我 们 自然 要 考虑 如 何 更 新 和 监控 这 个 服务 。 

当然 , 在 一 个 真实 的 推荐 系统 中 , 推荐 所 依据 的 数据 总 在 不 断 改 变 。 标 准 的 pataxMoael 实 现 
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会 目 动 使 用 来 日 底层 数据 源 的 最 新 数据 , 因此 在 上 层 无 须 做 特别 处 理 就 可 以 让 推荐 引擎 处 理 新 的 
数据 。 例 如 ， 假 如 你 通过 JpDBCcDataMode1 让 推荐 引擎 处 理 数 据 库 中 的 数据 ， 那 么 只 需 将 新 的 数 
据 更 新 到 底层 数据 库 表 中 ， 推 荐 引 区 就 会 开始 使 用 这 些 数 据 。 

但 是 出 于 对 性 能 的 考虑 ， 许 多 组 件 会 缓存 信息 和 中 间 的 计算 结 采 。 这 些 绥 存 最 终 会 被 更 新 ， 
但 这 意味 着 新 的 数据 不 会 立 即 昧 啊 推 存 结果 。 可 以 幸 用 Recommender .refresh ( ) 来 强制 清空 所 
有 的 缓存 ， 也 可 以 通过 调用 refresh 方 法 来 实现 ,该 Web 应 用 在 基于 SOAP 的 接口 上 开放 了 这 个 
方法 。 有 必要 时 ， 还 可 以 由 企业 应 用 系统 中 的 其 他 部 分 来 调用 。 

需要 特别 关注 基于 文件 的 偏好 数据 ， 它 是 通过 FileDataMode 1 来 访问 的 oO 在 部 署 更 新 的 信 
息 时 ， 我 们 可 以 对 这 个 文件 进行 更 新 或 覆盖 ， 而 FileDataMode1 会 马上 注意 到 这 个 更 新 ， 并 重 
新 加 载 这 个 文件 。 

数据 文件 的 重新 加 载 过 程 会 非常 慢 且 很 耗 内 存 , 因为 旧 模 型 和 新 模型 会 同时 占用 内 存 。 这 时 
正好 可 以 用 到 第 3 章 中 的 更 新 文件 (update file )。 不 是 对 这 个 主 数据 文件 进行 蔡 换 或 更 新 ， 更 有 
效 的 方式 是 增加 表示 近期 更 新 的 更 新 文件 。 更 新 文件 就 像 是 diffs， 在 与 主 数据 文件 放 在 同一 目录 
中 并 以 适当 的 形式 命名 时 ， 它 们 就 会 被 检测 到 ， 并 迅速 成 为 偏好 数据 的 内 存 表示 。 

例如 , 一 个 应 用 可 能 每 个 小 时 都 会 定位 所 有 在 上 一 个 小 时 或 更 长 时 间 内 生成 的 、 删 除 的 或 修 
改 的 仿 好 数据 ， 由 此 生成 一 个 更 新 文件 ， 并 把 它 和 主 数 据 文件 放 在 一 起 。 如 前 所 述 ， 所 有 这 些 文 
件 还 应 被 压缩 以 提高 效率 。 

可 以 直观 地 监测 推荐 服务 的 健康 状态 ， 即 使 这 并 不 属于 Mahout 目 身 的 范畴 。 只 要 可 以 通过 
HTTP 访 问 来 检查 Web 服 务 的 健康 状态 ， 任 何 监测 工具 都 可 以 用 :访问 该 服务 的 URL 并 确认 返回 结 
采 是 否 有 效 ， 这 样 就 能 够 检查 这 个 推荐 服务 是 否 还 有 效 。 同 时 ， 这 样 的 工具 可 以 (也 应 该 能 够 ) 
检测 到 应 答 请 求 的 时 间 , 并 在 性 能 突然 下 降 时 报警 。 一 般 而 言 ， 一 次 推荐 所 需 的 计算 时 间 是 固定 
的 ， 不 会 有 很 大 的 变化 。 


5.7 小结 


在 本 章 ， 我们 深入 观察 了 取 自 Czech 约 会 网 站 Libimseti 的 一 个 真实 的 大 型 数据 集 。 它 提供 了 
超过 10 万 个 用 户 对 10 万 个 以 上 档案 的 1700 万 个 评分 。 我 们 致力 于 为 这 个 网 站 创建 一 个 推荐 程序 ， 
让 它 能 够 为 网 站 的 用 户 推荐 档案 或 者 是 人 。 

我 们 在 这 个 数据 集 上 尝试 了 至 今 所 见 的 大 多 数 推荐 方法 , 并 努力 通过 评估 技术 选 出 一 个 看 似 
能 够 牛 成 最 佳 推荐 的 实现 : 基于 用 户 的 推荐 程序 , 它 使 用 基于 欧 氏 距离 的 相似 性 度量, 并 将 邻 域 
大 小 设 定 为 2。 

之 后 ,我 们 答 试 在 推荐 中 引入 数据 集中 的 附加 信息 ， 即 用 户 的 性 别 , 这 是 许多 档案 都 具有 的 
特征 。 我 们 试图 基于 这 个 数据 生成 一 个 基于 物品 的 相似 性 度量 。 我 们 初 识 了 IDRescorez 接 口 ， 
这 是 一 个 实用 的 工具 ， 可 以 针对 特定 的 问题 域 修正 结果 。 我 们 利用 IDRescorer 纳 入 对 性 别 的 考 
虑 ， 据 此 排除 那些 用 户 不 会 感 兴趣 的 推荐 ， 在 一 定 程 度 上 改进 了 推荐 质量 。 

因为 测 得 的 性 能 是 可 以 接受 的 (每 次 推荐 约 500 ms )， 我 们 便 架 构 了 一 个 推荐 引擎 的 可 部 署 
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版 本 ,并 使 用 Mahout 为 它 自动 生成 了 一 个 支持 Web 的 应 用 。 我 们 简要 地 考察 了 如 何 部 署 以 及 如 何 
通过 HTTP 和 SOAP 来 访问 这 个 组 件 。 

最 后 ， 我 们 审视 了 如 何在 运行 时 更 新 推荐 程序 的 底层 数据 。 

我 们 从 数据 一 下 讨论 到 可 用 于 生产 环境 的 推荐 服务 ， 到 此 就 算 告 一 段落 了。 这 个 实现 能 
够 在 单机 上 轻松 上 自如 地 处 理 拥有 1700 万 份 评分 的 数据 集 ， 并 能 实时 地 生成 推荐 。 但 是 ， 如 果 
数据 超过 了 单机 的 承载 能 力 叉 如 何 呢 ?下 一 章 ， 我 们 会 考 聚 如何 基 于 Hadoop 处 理 大 得 多 的 数 
据 集 。 


分 布 式 推 存 


本 章 内 容 

口 分 析 来 目 维基 百科 的 海量 数据 集 

口 使 用 Hadoop 和 分 布 式 算法 生成 推荐 结 

口 将 现 有 非 分 布 式 推荐 程序 改 为 伪 分 布 式 推 荐 程序 


本 书 所 用 的 大 数据 集 不 断 增 长 : 偏好 条 目 从 10 个 、10 万 个 到 1000 万 个 不 等 ， 其 至 达到 1700 
万 个 。 但 对 于 推荐 程序 而 言 ， 这 种 数据 集 还 只 能 算是 中 等 规模 。 本 曹 将 采用 维基 百科 上 文章 之 间 
的 链接 所 构成 的 海量 实体 ， 人 处 理 一 个 具有 1.3 亿 个 偏好 的 更 大 数据 集 。" 在 这 个 数据 集中 ， 文 章 既 
是 “用 户 ” 叉 是 物品 ， 用 于 展示 在 非 传 统 场景 中 如 何 通 过 Mahout 使 用 推荐 程序 。 

虽然 示范 所 用 的 1.3 亿 个 偏好 的 规模 尚 在 可 探 克 围 之 内 ,但 使 用 现 有 方法 在 单机 上 处 理 如 此 
大 的 数据 集 仍 有 难度 。 推 荐 算法 吸 待 音 新 ， 即 需要 借助 于 Mahout 所 采用 的 MapReduce 范 式 和 
Apache Hadoop 实 现 分 布 式 计算 。 

我 们 先 审 视 Wikipedia 数 据 集 , 来 理解 把 一 个 推荐 计算 变 为 分 布 式 计算 意味 者 什么 。 考虑 到 与 
非 分 布 式 实现 存在 明显 差异 ， 我 们 先 学 习 如 何在 分 布 式 环境 中 设计 一 个 简单 的 分 布 式 推荐 系统 。 
你 还 将 看 到 如 何 基 于 MapReduce 和 Hadoop 在 Mahout 中 实现 它 。 最 后 , 你 将 首次 尝试 运行 一 个 完整 
的 、 基 于 Hadoop 的 推荐 作业 ， 并 最 后 得 到 结果 。 


6.1 分 析 Wikipedia 数据 集 


我 们 以 考察 Wikipedia 数 据 集 为 起 点 , 但 之 后 的 论述 有 所 不 同 ; 受到 数据 规模 问题 的 影响 , 像 
以 前 一 样 进行 论述 很 困难 ， 我 们 不 得 不 先 探讨 计算 的 分 布 问题 。 

维基 百科 ( Wikipedia，http://wikipedia.org ) 是 一 个 著名 的 在 线 百 科 全 书 ， 其 内 容 可 由 用 户 编 
辑 和 维护 。 据 报考 ， 它 在 2010 年 5 月 时 仪 喘 文 文 草 就 超过 320 万 篇 。Freebase Wikipedia Extraction 
项 目 ( http://download.freebase.com/wex/ ) 估计 仅 莫 文 文章 的 大 小 就 接近 42 GB。 维 基 百 科 是 基于 


J 看 过 早期 草稿 的 读者 会 记得 本 章 以 前 用 的 是 Netflix Prize 数 据 集 。 由 于 法 律 原因 ,那个 数据 集 已 经 不 再 通过 官方 发 
布 ， 因 此 不 再 适合 用 作 样 本 数据 集 了 。 
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Web 的 ， 其 文章 一 定 会 链接 到 另外 一 篇 文 曹 。 我 们 要 关注 的 就 是 这 些 链接 。 我 们 将 文章 视 为 “用 
户 ”， 把 一 篇 文革 所 指 问 的 文革 视 为 该 源 文章 所 豆 欢 的 物品 。 

等 运 的 是 ， 不 必 下 载 Freebase 的 Wikipedia 来 提取 并 解析 出 所 有 这 些 链接 。Henry Haselgrove 
已 经 把 文章 中 的 链接 提取 好 并 发 布 在 http://users.on.net/~henry/home/wikipedia.htm。 它 进一步 提取 
出 对 附属 资源 的 链接 ， 如 文革 讨论 页 、 图 像 等 。 该 数据 集 还 采用 数字 化 的 ID 号 来 表示 文章 ， 而 不 
是 文章 的 标题 ， 这 很 有 帮助 ， 因 为 Mahout 将 所 有 用 户 和 物品 视 为 数字 化 的 ID。 

首先 , 从 Haselgrove 的 网 站 上 下 载 并 提取 links-simple-sorted.zip 文 件 。 这 个 数据 集 包含 从 $706 070 
篇 文革 到 为 外 3 773 865 篇 文章 的 130 160 392 个 链接 。 注 意 ， 这 里 没有 显 式 的 俩 好 或 评分 ， 只 有 从 
文章 到 文章 的 关联 。 这 就 是 布尔 型 俩 好 。 关 联 是 单 加 的， 存在 一 个 从 A 到 B 的 链接 并 不 代表 从 B 
到 A 会 有 任何 关联 。 物 品 并 不 会 远 远 多 于 用 户 ， 反 之 亦 然 ， 无论 基 于 用 户 还 是 基于 物品 的 算法 在 
性 能 上 都 不 会 更 优 。 如 采 我 们 使 用 涉及 相似 性 评 佑 的 算法 ,最 好 选择 一 个 不 依赖 于 俩 好 值 的 ， 比 
UlLogLikelihoodSimilarity, 

这 些 数据 表面 的 音义 是 什么 呢 ?” 可 以 得 到 什么 合理 的 推荐 结果 呢 ?” 文 草 A 到 B 的 链接 蕊 味 着 
B 提 供 了 与 A 有 关 的 信息 , 通 闸 是 提供 了 A 所 引用 事实 或 想法 的 背景 信息 。 基 于 这 些 数 据 ,， 推荐 系 
统 品 A 推荐 的 文 草 依赖 于 其 他 文 草 的 指 癌 ， 这 些 文 草 即 指 向 推荐 文章 ， 也 指 癌 A 所 指向 的 部 分 文 
昔 。 推 荐 文 草 可 被 视 为 A 应 该 链接 但 未 做 链接 的 ， 它 们 应 该 也 是 A 的 读者 所 感 兴趣 的 文章 。 有 些 
时 候 ， 推 荐 会 揭示 有 趣 或 偶然 的 关联 ， 甚 至 是 文章 A 没有 暗示 的 。 


6.1.1 挑战 规模 


用 一 个 非 分 布 式 的 推荐 引擎 来 处 理 这 些 数据 是 很 困难 的 。 在 Mahout 上 , 该 数据 自身 就 占用 
了 大 约 2 GB 的 堆 空 间 ， 总 共 的 堆 空间 大 致 需要 2.5 GB。 在 一 些 32 位 的 平台 和 JVM 上 ， 这 实际 上 
已 经 突破 了 可 用 堆 空 间 大 小 的 上 限 ， 用 不 了 多 久 我 们 就 需要 用 64 位 的 机 絮 。 根 据 算 法 的 不 同 ， 
推荐 时 间 可 能 会 超过 1s， 对 于 一 个 支持 现代 Web 应 用 的 实时 推荐 引擎 而 言 ， 这 可 是 一 个 很 长 的 
时 间 。 

当 硬件 资源 充足 时 ,性 能 尚 可 接受 。 但 如 果 输 入 增长 为 几 十 亿 个 偶 好 , 堆 空 间 需 求 超 过 32 GB， 
该 怎么 办 呢 ?” 以 后 进一步 扩展 呢 ?” 有 了 时， 可 以 丢弃 “噪声 ”数据 来 减少 数据 大 小 ， 以 对 抗 规模 问 
题 。 但 是 判断 什么 是 噪声 ， 这 本 刁 就 是 一 个 精度 和 规模 的 问题 。 

当前 ， 如 果 无 法 处 理 超过 一 定 规模 的 数据 ,使 系统 处 理 能 力 存 在 无 法 突破 的 瓶 贷 ,可 不 是 什 
么 时 比 的 事情 。 我 们 已 经 能 够 得 到 海量 的 计算 资源 , 这 里 的 问题 是 如 何 把 足够 的 计算 资源 集中 在 
一 起 。 相 比 于 把 更 多 小 型 机 器 提起 来 ， 更 大 的 机 器 会 带 来 高 昂 的 成 本 。 这 个 庞大 的 单机 还 会 带 来 
单 点 失效 问题 。 而 且 , 在 推荐 引擎 处 理 过 程 之 外 ,很 难 找到 一 种 有 效 的 方式 充分 利用 这 人 台 单 机 的 
昂贵 处 理 能 力 。 

Wikipdia 链 接 数 据 集 的 大 小 代表 一 个 实用 的 规模 上 限 ， 它 代表 一 个 基于 Mahout、 非 分 布 式 、 
实时 的 推荐 程序 在 一 个 人 硬件 还 不 错 的 服务 器 上 可 以 处 理 多 大 的 数据 一 一 而 且 这 个 机 器 用 当前 的 
标准 来 衡量 也 不 算 太 庞大 。 超 过 这 个 上 限 ， 就 该 用 新 的 办 法 了 。 


6.1.2 “分布 式 计 算 的 优 缺 点 


鉴于 这 些 使 用 单 台 大 机 器 的 不 合理 性 ， 我 们 的 解决 方案 采用 许多 小 型 机 器 "， 而 不 是 一 台大 家 
伙 。 在 一 个 机 构 中 , 可 能 有 许多 小 型 机 各 没有 人 被 充分 利用 , 我 们 可 以 用 它们 额外 的 能 力 来 计算 推荐 ， 
如 图 6-1 所 示 。 而 且 ， 现 在 可 以 通过 云 计算 提供 商 ， 如 亚马逊 的 EC2 服 务 〈http:/aws.amazon.com )， 


来 获得 许多 机 末 任 源 。 


六 
六 
日 


图 6-1 分 布 式 计算 将 一 个 对 单 台 服务 各 过 大 的 问题 进行 拆 分 ,使 之 可 以 通 
过 几 个 小 服务 右 来 处 理 


将 推荐 进行 分 布 式 计算 彻底 改变 了 推荐 引擎 的 这 个 问题 。 迄今 为 止 , 每 种 计算 推荐 的 算法 在 理 
论 上 都 可 视 为 基于 每 个 偏好 值 的 函数 。 为 了 从 Wikipedia 链 接 数 据 集中 为 某 篇 文章 推荐 一 个 新 的 链 
接 , 推荐 算法 就 要 访问 所 有 文章 到 文章 的 链接 ,因为 任何 链接 对 计算 都 会 是 有 用 的 。 但 是 在 规模 很 
大 时 , 无 法 一 次 访问 所 有 数据 ,即便 是 一 次 访问 大 部 分 数据 也 是 不 可 能 的 。 所 有 我 们 至 今 已 经 看 到 
的 方法 都 失效 了 ,至 少 从 它们 当前 的 状态 来 看 是 这 样 的 ,分 布 式 推荐 引擎 的 计算 是 一 个 全 新 的 事物 。 

要 洪 清 一 点 ,分 布 式 计算 并 不 会 使 计算 更 为 有 效 。 相 反 ， 它 通常 会 耗费 更 多 的 资源 。 例 如 ， 
在 许多 小 型 机 带 之 间 移 动 数据 会 消耗 网 络 资源 ,。 这 种 计算 必然 会 涉及 对 许多 中 间 结 果 的 计算 和 存 
储 ， 这样 就 需要 大 量 的 处 理 时 间 来 做 序列 化 、 存 储 并 在 之 后 做 反 序列 化 。 为 了 协调 这 些 操作 ， 软 
件 会 消耗 不 少 的 内 存 和 处理 资源 。 

需要 注意 ， 如 此 庞大 的 分 布 式 计算 必然 为 离线 处 理 ， 而 不 是 实时 地 响应 用 户 请 求 。 即 便 是 很 
小 的 计算 在 这 种 形式 下 都 需要 花费 好 几 分 钟 才能 完成 ， 而 不 是 几 毫 秒 那 么 短 的 时 间 。 通常， 在 运 
行 态 下 的 推荐 每 间隔 一 段 时 间 会 重新 计算 、 存 储 并 将 结果 返回 给 用 户 。 

但 它们 提供 了 一 种 途径 , 让 推荐 引擎 的 计算 规模 得 以 扩展 , 解决 了 一 个 非 分 布 式 计算 因 受 限 
于 单机 资源 而 无 法 启动 的 问题 。 分 布 式 计 算 可 以 利用 许多 机 器 的 资源 ， 从 而 将 现 有 机 器 上 空闲 、 
未 被 使 用 的 资源 整合 起 来 ， 而 不 是 使 用 固定 的 机 器 资源 。 最 终 ， 分 布 式 计算 可 以 让 计算 过 程 更 快 
完成 一 一 即便 它 可 能 会 耗费 更 多 原始 的 处 理 时 间 。 假设 一 个 分 布 式 计算 与 非 分 布 式 计算 相 比 用 去 
了 两 倍 的 CPU 时 间 。 如 果 10 个 CPU 来 处 理 这 个 计算 ， 它 就 会 比 仅 用 单个 机 器 资源 的 非 分 布 式 计算 
快 上 5 售 。 


大 服务 器 


QD “小 型 机 需 ” 原 文 为 “small machine”， 指 的 是 商用 计算 机 ， 如 PC 服务 需 等 。 一 一 译 者 注 
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6.2 ”设计 一 个 基于 物品 的 分 布 式 推荐 算法 


对 于 这 种 规模 的 问题 , 分布 式 生成 推荐 绪 末 是 合适 而 且 必 要 的 。 之 前 我 们 已 经 对 基于 物品 的 
推荐 程序 有 所 了 解 ， 下 面 会 匈 勾 勒 出 它 的 一 个 分 布 式 形态 。 它 看 上 去 会 有 点 儿 像 基于 物品 的 非 分 
布 式 推 存 程序 ， 但 既然 非 分 布 式 算 法 无 法 完全 转换 到 分 布 式 领域 ， 它 必然 有 所 不 同 。 


6.2.1 构建 共 现 和 矩阵 


算法 可 以 通过 人 简单 的 矩阵 运算 来 完美 地 表达 与 实现 。 如 果 你 只 是 几 年 前 在 数学 读本 上 接触 过 
和 矩 阵 ， 不 要 担心 ， 只 需要 回忆 一 下 和 抢 阵 的 乘 运 算 即 可 。 这 里 不 会 用 到 行列 式 、 行 归 约 或 特征 值 。 

回顾 之 前 介绍 过 的 基于 物品 的 推荐 引擎 ， 它 们 均 依 赖 于 一 个 名 为 Ttemsimilarity 的 实现 ， 
它 给 出 了 计算 任意 一 对 物品 之 间 相 似 度 的 方法 。 假 设 我 们 要 计算 出 每 个 物品 对 之 间 的 相似 性 ,并 
将 其 结果 导入 一 个 巨大 的 矩阵 。 这 应 该 是 一 个 方 阵 , 行 和 列 的 数目 等 于 数据 模型 中 的 物品 数 。 
行 ( 以 及 每 列 ) 表达 在 一 个 特定 物品 和 所 有 其 他 物品 之 间 的 相似 性 。 事 实 上 ， 把 这 些 行 和 列 看 做 
向 量 会 有 助 于 理解 。 该 算 阵 还 是 沿 对 角 线 对 称 的 ， 因 为 物品 X 和 Y 之 间 的 相似 性 与 物品 Y 和 X 之 间 
的 相似 性 是 一 样 的 ， 所 以 行 X 和 列 Y 上 的 条 上 日 也 会 等 于 在 行 Y 和 列 X 上 的 条 日 。 


注意 这 个 和 矩阵 描述 了 物品 之 间 的 关联 ， 而 不 涉及 用 户 。 这 并 非 是 一 个 用 户 - 物 品 人 矩阵 。 那 种 算 
阵 不 会 是 对 称 的 ; 其 行 数 和 列 数 与 用 户 和 物品 的 数量 匹配 ， 但 并 不 相同 。 


有 这 样 一 种 矩阵 是 算法 所 需要 的 : 共 现 矩阵 (co-occurrence matrix )。 它 不 是 计算 每 个 物品 对 
之 间 的 相似 性 ,而 是 计算 在 某 些 用 户 偏 好 值 列表 中 每 个 物品 对 共同 出 现 的 次 数 , 以 此 来 填充 矩阵 。 
例如 ， 如 果 有 9 个 用 户 都 为 物品 X 和 Y 给 出 了 一 些 偏好 ,那么 X 和 Y 同 时 出 现 了 9 次 。 两 个 在 任何 用 
户 偏 好 中 均 未 同时 出 现 的 物品 ， 其 共 现 次 数 为 0。 而 且 ， 在 概念 上 ， 每 当 用 户 给 出 对 某 个 物品 的 
偏好 ， 就 代表 该 物品 与 自身 共生 了 一 次 ， 不 过 这 个 计数 并 没有 什么 用 。 

共 现 关系 与 相似 性 很 像 : 两 个 物品 同时 出 现 得 越 多 ,它们 越 有 可 能 相关 或 相似 。 共 现 和 矩阵 的 
作用 类 似 于 基于 物 品 的 非 分 布 式 算法 中 的 ItemSimilari Es 

做 简单 的 计数 就 可 以 生成 这 个 和 矩阵。 只 是 要 注意 矩阵 中 的 条 日 不 受 偏好 值 的 影响 。 这些 值 稍 
后 会 参与 计算 。 表 6-1 给 出 了 对 一 个 小 的 偏好 值 样本 集 生成 的 共 现 矩阵 ， 这 个 偏好 值 集合 在 本 书 
中 已 多 次 用 到 。 


表 6-1 ”一 个 简单 数据 集中 的 物品 共 现 答 阵 。 首 行 首 列 为 行列 名 ， 不 是 矩阵 值 


101 102 103 104 105 106 107 
101 5 3 4 4 2 1 
102 3 3 3 2 1 1 0 
103 4 3 4 3 1 0 
104 4 2 3 4 2 2 1 


( 续 ) 

101 102 103 104 105 106 107 

105 2 1 1 。 1 1 
106 2 1 2 1 0 
107 1 0 0 1 1 0 1 


不 出 意外 ， 该 矩阵 是 对 角 线 对 称 的 。 因 为 有 7 个 物品 ， 所 以 矩阵 为 7 x 7 的 方 阵 。 对 角 线 上 的 
值 对 算法 没有 音义， 但 是 出 于 对 完整 性 的 考虑 也 被 包含 进来 。 


6.2.2 ”计算 用 户 向 量 

在 推荐 程序 加 一 个 基于 和 抢 阵 的 分 布 式 实现 转换 的 下 一 步 , 我们 将 一 个 用 户 的 偏好 视 为 一 个 问 
量 。 我 们 之 前 已 经 讨论 过 基于 欧 氏 距离 的 相似 性 度量 ， 即 将 用 户 视 为 空间 中 的 一 个 点 ， 而 相似 性 
则 基于 它们 之 间 的 距离 进行 度量 。 

同样 , 在 一 个 有 n 个 物品 的 数据 模型 中 , 用 户 偏好 就 像 一 个 n 维 癌 量 , 每 个 维度 代表 一 个 物品 。 
用 户 对 物品 的 偏好 值 为 这 个 回 量 中 的 值 。 用 户 没 有 表达 仿 好 的 物品 映射 为 问 量 中 的 0 值 。 它 是 一 
个 典型 的 稀 玻 和 抢 阵 ， 大 多 值 为 0， 因 为 用 户 通 常 仅 对 一 小 部 分 物品 表达 偏好 。 

例如 ， 在 这 个 小 型 样本 数据 集中 ， 用 户 3 的 偏好 对 应 问 量 [2.0, 0.0, 0.0, 4.0, 4.5, 0.0, $5.0]。 要 生 
成 推荐 结果 ， 每 个 用 户 都 需要 有 这 样 一 个 向 量 。 


6.2.3 ”生成 推荐 结果 
要 为 用 户 3 计 算出 推荐 千 宋 , 只 需 将 这 个 癌 量 作为 列 四 量 , 用 它 乘 以 共 现 矩 阵 , 如 表 6-2 所 未 。 
表 6-2 ” 共 现 矩阵 乘 以 用 户 3 的 偏好 值 向 量 CU3) 生成 推荐 结果 R 


101 102 103 104 105 106 107 U3 R 
101 了 3 4 4 2 2 7 2.0 40.0 
102 3 3 3 2 1 1 0 0.0 18.5 
103 4 3 4 3 1 2 0 x 0.0 二 24.S 
104 4 3 4 2 e 7 4.0 40.0 
105 2 J 7 2 2 7 7 4.7 20.0 
106 2 ] 2 2 1 2 0 0.0 16.5 
107 7 0 0 7 7 0 7 3.0 13.5 


如 于 需要， 可 以 花 一 点 儿 时 间 看 看 矩阵 乘 是 如 何 进 行 的 〈http:/en.wikipedia.org/wiki/ 
Matrix_multiplication )。 共 现 窍 阵 和 一 个 用 户 辐 量 的 乘积 结果 是 一 个 回 量 ， 它 的 维度 等 于 项 目的 
个 数 。 可 以 从 结果 癌 量 R 中 的 值 中 直接 得 到 推荐 结果 : 在 R 中 最 大 的 值 对 应 于 最 佳 的 推荐 。 

表 6-2 显 示 了 这 个 小 样本 数据 集 为 用 户 3 所 做 的 乘积 , 以 及 结 采 和 矩阵 R。 可 以 忽略 R 中 物品 101、 
104、105 和 107 对 应 行 的 值 ( 表 中 为 斜体 )， 因 为 它们 不 适用 于 推荐 : 用 户 3 已 经 表达 过 对 这 些 物 
品 的 偏好 。 在 余下 的 物品 中 , 物品 103 的 条 目 具 有 最 高 值 24.5, 因此 是 最 佳 推荐 , 其 次 是 102 和 106。 
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6.2.4 解读 结果 


让 我 们 停 下 来 思考 一 下 在 上 一 节 发 生 了 什么 。 为 什么 在 R 中 较 高 的 值 对 应 于 更 好 的 推 
荐 ? 计算 R 中 的 每 个 条 目 近 似 于 为 每 个 物品 估计 一 个 偏好 ， 但 是 它们 为 什么 会 近似 于 估计 的 
偏好 值 呢 ? 

回顾 一 下 这 个 计算 ，R 中 的 第 3 个 条 目 为 矩阵 中 第 3 行 的 向 量 与 列 癌 量 U3 的 点 积 。 这 是 两 个 辐 
量 中 每 组 对 应 条 目 对 之 间 的 乘积 之 和 : 

4{2.0) + 3(0.0) + 4{0.0) + 3(4.0) + 1(4.5) + 2(0.0)} + DIS.0) = 24.5 

第 三 行 包 含 了 物品 103 和 所 有 其 他 物品 之 间 的 共 现 关系 。 直 观 而 言 ， 如 果 物 品 103 和 那些 用 户 
3 表达 过 偏好 的 物品 存在 共 现 关系 , 那么 它 就 有 可 能 是 用 户 3 所 喜欢 的 物品 。 前面 的 公式 将 共 现 关 
系 和 偏好 值 的 乘积 相 加 。 当 物品 103 总 是 与 用 户 很 喜欢 的 物品 同时 出 现 ， 这 个 相 加 结果 就 包含 了 
大 的 共 现 值 和 大 的 偏好 值 之 间 的 乘积 。 这 会 使 得 总 和 (RR 中 条 目的 值 ) 更 大 。 这 就 是 R 中 较 大 的 
值 会 对 应 于 好 推荐 的 原因 。 

注意 ，R 中 的 值 并 不 代表 一 个 估计 偏好 值 ( estimated preference value ) 一 一 它们 相对 于 1 
而 言 实在 太 大 了 。 理 想 情 况 下 ， 应 该 利用 一 些 额 外 的 信息 将 它们 归 一 化 为 估计 偏好 值 。 但 是 
从 我 们 所 要 达成 的 目标 来 看 ， 归 一 化 没有 必要 ， 因 为 重要 的 是 推荐 的 顺序 ， 而 不 是 排序 所 依 
赖 的 确切 值 。 


6.2.5 ”分布 式 实现 


这 个 算法 的 确 很 好 ,但 它 是 否 也 更 适合 于 大 规模 的 分 布 式 实现 呢 ? 

这 个 算法 各 个 组 件 每 次 仅 处 理 全 部 数据 的 一 个 子 集 。 例 如 , 生成 用 户 回 量 只 是 为 一 个 用 户 搜 
集 全 部 的 偏好 值 并 构建 出 一 个 癌 量 。 统计 共 现 关系 只 需要 每 次 检查 一 个 癌 量 。 计 算 作 为 结果 的 推 
存 问 量 仪 需 每 次 加 和 载 矩 阵 的 一 行 或 一 列 。 而 且 ， 许 多 计算 只 是 把 相关 的 数据 高 效 地 搜集 到 一 起 ， 
例如 从 各 目的 偏好 值 中 创建 用 户 向 量 。 

MapReduce 范 式 正 是 为 拥有 这 些 特征 的 计算 而 设计 的 。 


6.3 基于 MapReduce 实现 分 布 式 算法 


现在 ， 算 法 可 被 转换 为 基于 MapReduce 与 Apache Hadoop 实 现 的 形式 。 如 前 所 述 ，Hadoop 是 
一 个 流行 的 分 布 式 计算 框架 ,主要 包含 两 个 组 件 : HDFS ( Hadoop Distributed Filesystem，Hadoop 
分 布 式 文件 系统 ) 和 一 个 MapReduce 范 式 的 实现 。 

本 节 稍 后 将 逐一 介绍 MapReduce 的 几 个 阶段 ,它们 共同 构成 一 条 生成 推荐 结果 的 流水 线 。 
个 阶段 完成 一 部 分 工作 。 我 们 将 看 到 每 个 阶段 的 输入 、 输 出 和 用 途 。 阅 读本 书后 续 内 容 可 知 ， 即 
便 是 这 种 简单 的 推荐 算法 也 需要 S$ 个 MapReduce 阶 段 ， 而 在 Mahout 中 这 还 只 是 最 简单 的 形式 。 本 
方 最 后 会 给 出 一 个 完整 的 基于 Hadoop 的 端 到 并 推 荐 系统 。 
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注意 本 章 会 使 用 Hadoop 框 架 0.20.2 版 本 中 的 API。 本 市 代码 的 完整 版 可 以 在 Mahout 中 找到 ， 它 
们 可 在 Hadoop 0.20.2 或 0.20.x 分 支 中 较 新 的 版 本 中 运行 。 特 别 需 参 考 org .apache .mahout .cf. 
taste.hadoop.item.RecommenderJob, 它 调 用 了 所 有 后 续 过 程 的 实现 。 


6.3.1 MapReduce 简 介 


MapReduce 是 一 种 思考 和 组 织 计 算 的 方法 , 据 此 可 将 计算 合理 分 布 到 许多 机 各 上 .MapReduce 
计算 的 形式 如 下 : 

(1) 输入 的 形式 为 许多 键 值 对 ( K1,V1 )， 通常 是 一 个 HDFS 实 例 的 输入 文件 ; 

(2) Map 函 数 作用 于 每 个 (K1,V1 ) 对 ， 得 到 0 个 或 多 个 与 之 不 同 的 键 值 对 ( K2，V2 ); 

(3) 为 每 个 K2 合 并 所 有 的 V2; 

(4) 为 每 个 K2 及 其 对 应 的 V2 调用 Reduce 函 数 , 得 到 0 个 或 多 个 妨 一 种 不 同 的 键 值 对 ( K3, V3 )， 
输出 返回 到 HDFS。 

这 似乎 是 一 个 奇怪 的 计算 模式 ， 但 是 许多 问题 的 处 理 可 以 套用 这 个 模式 ， 或 由 多 个 基于 该 
模式 的 计算 串 在 一 起 来 完成 。 以 这 种 形态 为 染 构 的 问题 就 可 以 便 助 于 Hadoop 和 HDFS 有 效 地 进 
行 分 布 。 

如 有 果 不 询 悉 Hadoop， 可 以 阅读 并 运行 Hadoop 的 人 简短 教程 ，0.20.2 版 本 的 文档 ( http://hadoop. 
apache.org/common/docs/r0.20.2/mapred tutorial.html ) 会 教 给 你 在 Hadoop 中 运行 MapReduce 作 业 的 
基本 操作 。 


6.3.2 ”向 MapReduce 转 换 : 生成 用 户 向 量 
在 这 个 案例 中 ， 计 算 将 含有 链接 的 数据 文件 作为 输入 。 它 的 行 不 采用 userID,itemID， 


preference 的 形式 ， 而 是 采用 userID: itemID1 itemID2 itemID3.. . 的 形式 。 这 个 文件 放 
在 HDFS 上 以 便 供 Hadoop 使 用 一 一 更 多 实现 细 市 会 在 几 市 之 后 讨论 。 
第 一 个 MapReduce 会 形成 用 户 回 量 。 
国 | 输入 文件 被 框架 视 为 (Long,sString) 对 ， 这 里 Long 型 的 键 是 文件 中 的 位 置 ， 而 String 型 
的 值 为 文件 中 的 文本 行 。 例 如 239 / 98955: 590 22 9059。 
口 每 一 行 补 map 也 数 解析 为 一 个 用 户 人 D 和 几 个 物品 D。 该 也 数 输出 新 的 键 值 对 : 用 户 ID 及 其 
对 应 的 物品 ID ， 这 样 每 个 物品 ID 都 有 一 个 用 户 ID。 例 如 98955 / 590。 
口 框 织 为 每 个 用 户 ID 将 所 有 对 应 的 物品 ID 搜集 到 一 起 。 
口 Reduce 辆 数 利用 全 部 的 物品 世 为 该 用 户 构 造 一 个 同 量 〈《Vvector )， 并 输出 这 个 用 户 的 ID， 
与 该 用 户 的 侦 好 回 量 相对 应 。 该 回 量 中 的 值 均 为 0 或 1。 例 如 98955 / [590:1.0，22:1.0， 
9U059sl. Qs 
该 想法 的 一 个 实现 可 见 代码 清单 6-1 和 代码 清单 6-2， 其 中 实现 了 Hadoop MapReduce 中 的 
Mapper 和 Reducer 接 口 。 这 是 典型 的 MapReduce 计 算 过 程 ， 包含 这 样 一 对 相关 类 的 实现 。 这 就 
是 实现 前 述 流程 所 需 的 全 部 内 容 ， 剩 下 的 部 分 由 Hadoop 人 负责。 
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代码 清单 6-1 解析 Wikipedia 链 接 文 件 的 Mapper 


Public class WikipediaToItemPrefsMapper 
extends Mapper<LongWritable,Text,VarLongWritable,VarLongWritable> ({ 


private static final Pattern NUMBERS = Pattern.compile("(\\d+)").; 


public void map (LongWritable key, 
Text value, 
Context context) 
throws IOException, InterruptedException { 
String line = value.toString!().; 
Matcher m = NUMBERS.matcher (line})., 定位 用 户 ID 
m.findt{().: 
VarLongWritable userID = 
new VarLongWritable{Long.parseLong (m.group())}):; 
VarLongWritable itemID = new VarLongWritable!(); 


while {(m.find()) f 
itemID.set (Long.parseLong (m.groupD()))}):; 为 每 个 物品 ID 生成 用 户 - 物 品 对 
CONntext .write (userID, itemID): 


} 


代码 清单 6-2 ”从 用 户 的 物品 偏好 中 生成 Vector 的 Reducer 


public class WikipediaToUserVectorReducer extends 
Reducer<VarLongWritable,VarLongWritable,VarLongWritable,VectorWritable> { 
Public void reduce (VarLongWritable userID, 


Iterable<VarLongWritable> itemPrefs, 
Context context) 
throws IOException, InterruptedException { 


Vector userVector = new RandomAccessSparseVector! 循环 遍历 用 户 的 
Integer .MAX VALUE, 100}); 物品 -偏好 对 
for {VarLongWritable itemPref : itemprefs) { < 
userVector.sett{ (int})itemPref .get()}, 1.0f),; < 二 
在 “物品 ID” 维 设 
context .write{({userID, new Vectorwr1ItableltuserVector) ) ; 置物 品 偏 好 值 


} 


} 
为 了 满足 说 明 的 需要 ， 这 里 仅 给 出 Mahout 实 际 实现 的 何 化 版 。 它 们 不 包含 优化 和 配置 选项 ， 
但 是 均 可 运行 并 输出 有 用 的 结 


6.3.3 ”向 MapReduce 转 换 : 计算 共 现 关系 


下 一 步 计算 过 程 为 另 一 个 MapReduce， 它 使 用 第 一 个 MapReduce 的 输出 来 计算 共 现 关系 。 

(1) 输入 是 用 户 ID 及 对 应 的 用 户 偶 好 vector (上 一 个 MapReduce 的 输出 )， 例 如 98955 / 
| 

(2) Map 函 数 根据 用 户 的 偏好 来 决定 所 有 的 共 现 关系 ， 并 为 每 一 个 共 现 关系 生成 一 个 物品 ID 
对 一 一 物品 了 对 应 到 物品 ID。 无 论 是 从 一 个 物品 ID 到 另 一 个 的 对 应 关系 ,或 截然 相反 的 对 应 关系 ， 
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都 会 锐 记 录 下 来 。 例 如 590/22。 

(3) 框 染 为 每 个 物品 搜集 与 之 对 应 的 所 有 共 现 关系 。 

(4) Reducer 为 每 个 物品 有 D 统 计 它 收 到 的 全 部 共 现 关系 ， 并 构造 一 个 新 的 Vector， 通 过 统计 
它们 共 现 的 次 数 来 表达 一 个 物品 的 全 部 共 现 关系 。 它 们 可 以 当做 共 现 矩阵 的 行 或 列 使 用 。 例 如 
昌国 


这 个 阶段 的 输出 实际 上 是 共 现 和 矩阵。 代码 清单 6-3 和 代码 清单 6-4 给 出 了 一 个 在 Hadoop 的 
Mahout 中 的 简单 实现 。 这 里 同样 有 Mapper 和 Reducer 的 相应 实现 。 


代码 清单 6-3 ”计算 共 现 关系 的 Mapper 


public class UserVectorToCooccurrenceMapper extends 


Mapper<VarLongWritable,VectorWritable,IntwWritable,IntwWritable> 1 
Public void map (VarLongWritable userID, 


VectorWritable userVector, 
Context context) 


throws IOExcCception, InterruptedException { 
Iterator<Vector.Element> it = 


| 仅 条 环 培 历 非 零 元 素 
USerVector.get() .iterateNonZero().: 

while (it.hasNext()) f 

int indexl = it.next{(} .index!{().: 

Iterator<Vector.Element> it2 = 


USerVector.get() .iterateNonZero().;: 
while (it2.hasNext!{(})}) f{ 


jnt index2 = jt2.next() .index!{().: 
Context .write{new IntWwritablie (indexl) 
new IntWritable (index2) 


}; < 一 一 记录 项 目 ID 
} 


代码 清单 6-4 计算 共生 关系 的 Reducez 


Public class UserVectorToCooccurrenceReducer extends 


Reducer<IntWwWritable, Intwritable, IntWritable,VectorWritable> { 
Public void reduce (IntWritable itemIndex!l, 
Iterable<IntWritable> itemIndex28s, 
Context context) 
throws IOException, InterruptedException { 
Vector CoOOCCUrrenceRow = 
new RandomAccessSparseVector(Integer.MAX VALUE, 100); 
for {IntWritable intwritable : itemIndex2s) { 
int itemIndex2 = intwritable.get!().; 
COOCCUIrrenceRow. sett 


itemInaex2， _ 累加 物品 1 和 2 的 共 现 次 数 
CooccurrenceRow.get (itemIndex2) + 1.0) ; 
} 
context .writet 
1temIndexl], 、 三 
itemInGex1， _ | 记录 完整 的 物品 1 共 现 向 量 
new VectorWr1ItablelrcooccurreTceRow) ) :; 
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6.3.4 ”向 MapReduce 转 换 : 重新 思考 和 矩阵 乘 


现在 可 以 使 用 MapReduce 将 第 一 步 中 得 到 的 用 户 癌 量 和 第 二 步 中 的 共 现 矩阵 相 习 ,从 而 得 到 
一 个 推荐 问 量 ， 从 中 算法 可 以 推测 出 推荐 结 

但 是 在 这 里 ,这 个 乘法 可 以 用 一 种 不 同 但 更 为 高 效 的 方法 来 做 一 一 一 种 更 适合 MapReduce 计 
算 的 形式 。 这 个 算法 不 会 使 用 传统 的 矩阵 乘 ， 那 是 让 每 一 行 都 去 乘 用 户 回 量 (作为 一 个 列 癌 量 )， 
以 生成 结 采 R 中 的 一 个 元 素 。 

for 共 现 矩阵 中 的 每 一 行 寺 

计算 行 向 量 寺 和 用 户 向 量 的 点 积 
将 点 积 结 果 存 入 R 中 第 i 个 元 素 

这 个 算法 我 们 在 学 校 都 学 过 ， 为 什么 不 用 它 呢 ? 问题 都 出 在 性 能 上 ， 这 里 我 们 正好 用 它 来 理解 
一 下 设计 大 型 矩阵 和 回 量 操作 时 应 如 何 思考 , 以 便 获 得 适当 的 性 能 。 传统 的 算法 会 用 整个 共 现 矩阵 ， 
为 它 需 要 对 每 一 行 做 一 次 回 量 的 点 积 。 这 里 任何 对 全 部 输入 进行 处 理 的 算法 都 很 “ 粳 糕 ” ， 因 为 
输入 可 能 会 超级 庞大 , 甚至 无 法 本 地 化 。 与 此 相反 , 矩阵 来 可 以 转化 为 一 个 对 共 现 矩阵 中 列 的 函数 。 

将 R 置 为 空 向 量 

for 共 现 徐 阵 中 的 每 个 列 

将 列 向 量 i 和 用 户 向 量 中 的 第 个 元 素 相 有 来 
将 这 个 向 量 加 到 R 上 

请 花 点 儿 时 间 想 想 这 个 方法 ,可 以 用 一 个 小 例子 来 试 一 下 ,这 也 是 一 个 正确 的 矩阵 乘 。 此 时 
仍 算 不 上 是 改进 ， 因 为 它 还 是 要 按 列 对 整个 共 现 窍 阵 进行 处 理 。 

但 是 ， 只 要 用 户 癌 量 中 的 元 系 i 为 0， 循 环 就 可 以 完全 被 跳 过 去 ， 因 为 乘积 是 零 问 量 并 且 不 会 
影响 结 采 。 于 是 只 要 对 用 户 回 量 的 非 零 元 素 执行 循环 即 可 。 列 数 等 于 用 户 给 出 俩 好 的 个 数 ， 当 用 
户 问 量 稀 玖 时 ， 它 远 小 于 列 的 总 数 。 

按 此 方法 ， 算 法 可 以 有 效 地 对 计算 进行 分 布 。 可 以 将 列 回 量 i 划 出 到 所 有 与 之 相 乘 的 元 素 上 。 
乘积 可 以 彼此 独立 地 进行 计算 和 存储 。 


6.3.5 ”向 MapReduce 转 换 ， 通过 部 分 乘积 计算 矩阵 乘 


从 前 面 的 步 又 中 可 以 获得 共 现 矩阵 的 列 。 因 为 这 个 矩阵 是 对 称 的 , 行 与 列 相 同 , 所 以 输出 在 
理论 上 可 以 被 看 做 行 , 也 可 以 被 看 做 列 。 这 些 列 将 物品 了 作为 键 ,算法 必须 将 所 有 用 户 回 量 中 的 
每 一 列 去 和 该 物品 中 的 每 一 个 非 零 的 俩 好 信 相 乘 。 怠 是 说 , 它 必 须 将 物品 ID 逐一 和 用 户 ID 以 及 偶 
好 住 对 应 起 来 ,并 在 Redaucer 中 将 它们 汇聚 在 一 起 。 在 将 每 个 值 都 与 这 个 共 现 矩阵 的 列 相 乘 之 后 ， 
就 会 生成 一 个 同 量 ， 形 成 面 回 用 户 的 推荐 问 量 R 的 一 部 分 。 

这 里 的 难点 在 于 在 一 个 计算 过 程 中 要 合并 两 种 不 同 的 数据 : 共 现 列 回 量 和 用 户 偏 好 值 。 这 原 
本 在 Hadoop 上 是 不 可 能 实现 的 ， 因 为 在 Reducer 中 的 值 只 能 为 writable 这 一 种 类 型 。 有 一 种 巧 
妙 的 实现 可 以 解决 这 个 问题 ， 即 构建 一 个 新 的 Writaple,， 即 VectororPrefWritapble, 它 含有 
一 种 或 为 一 种 数据 类 型 。 虽然 可 能 有 点 儿 取 巧 , 但 在 设计 分 布 式 计算 时 ， 为 文 持 优雅 而 高 效 的 计 
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算 而 修改 一 些 规 则 是 非常 有 用 的 ， 也 是 必须 的 。 
这 里 的 Map 阶 段 实 际 包含 了 两 个 Mapper， 每 个 产生 不 同类 型 的 Redqucezr 输 入 。 
口 第 一 个 Mapper 的 输入 为 共 现 和 矩阵， 以 物品 卫 为 键 ， 对 应 于 Vectorzr 形 式 的 列 。 例 如 590 / 
[22:3.0,95:1.0,...,9059:1.0,...]。 
Map 喘 数 人 简单 地 转发 其 输入 ， 但 形式 上 采用 以 Vectororprefwritable 圭 装 的 Vector、 
口 第 二 个 Mapper 的 输入 为 用 户 回 量 : 以 用 户 了 为 人 键 ， 对 应 于 Vector 形 式 的 偏好 值 。 例 如 
98955/ [590:1.0,22:1.0,9059:1.0]。 
对 于 用 户 回 量 中 的 每 一 个 非 零 值 ，Map 辆 数 输出 一 个 物品 ID ， 及 对 应 的 用 户 ID 和 侦 好 但， 
以 VectorOrPrefWritable 的 形式 封装 。 例 如 590 / [98955:1.0]。 
框 染 按照 物品 DD 将 共生 关系 列 和 所 有 的 用 户 ID 偏好 值 对 汇聚 在 一 起 。 
reducer 将 这 些 信息 归并 为 一 条 输出 记录 并 存储 下 来 。 
代码 清单 6-$ 显 示 了 以 VectororPErefWritable 形 式 封装 的 共 现 关系 列 。 


代码 清单 6-5 ” 封 闻 共 现 关 系列 


public class CooccurrenceColumnWrapperMapper extends 
Mapper<IntWritable,VectorWritable, 


IntWritable,VectorOrPprefWritable> ff 
Public void map (IntWritable key, 


VectorWritable value, 


Context context} throws IOException, JInterruptedException { 
context .writelkey, new VectorOrPErefWrlitablelvalue.Get())) 


} 
} 


在 代码 清单 6-6 中 ， 用 户 疝 量 被 分 割 为 其 独立 的 偏好 值 和 输出 根据 物品 ID， 而 非 用户 ID )。 
代码 清单 6-6 ”分割 用 户 癌 量 


public class UserVectorSplitterMapper extends 
Mapper<VarLongWritable,VectorWritable, 
IntWritable,VectorOrPprefWritable> ff 
Public void maplVarLongWritable key, 
VectorWritable value, 
Context context}) throws IOException, 
long userID = key.get!()}: 
Vector userVector = value.get'().; 
Iterator<Vector.Element> it = userVector.iterateNonzZerol().: 
IntWritable itemIndexWritable = new IntWritable!(); 


InterruptedException { 


while {it.hasNext(}) 1{ 
Vector.Element ee = it.next(}); 
Int itemIndex = e.index(): 
float preferenceValjue = {float}) e.get{(); 


itemIndexWritable.set (ijtemIndex).: 
context .write(itemIndexWritable, 


new VectorOrPrefwWritable(userID, preferenceValue)); 
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从 技术 上 讲 , 在 这 两 个 Mapper 之 后 并 没有 真正 的 Reducer; 我 们 不 能 把 两 个 Mapper 的 输出 
嘻 人 一 个 Reducer 中 。 相 反 , 它们 独立 运行 ， 并 将 输出 结 采 传递 到 一 个 空 的 Reducer， 最 终 保 存 
在 两 个 位 置 。 这 两 个 位 置 可 以 作为 男 一 个 MapReduce 的 输入 ， 它 的 Mapper 什 么 也 不 做 ， 而 
Reducer 将 物品 的 一 个 共 现 关系 列 癌 量 , 并 和 该 物品 对 应 的 所 有 用 户 及 偏好 值 汇聚 在 一 起 形成 一 
个 实体 ， 称 为 VectorAndPrefsWritable。 于 述 过 程 在 ToVectorAndPrefReducer 中 实现 ， 们 | 
单 起 见 不 再 性 述 。 

有 了 共 现 矩阵 的 列 和 用 户 偏 好 ， 且 它们 均 以 物品 了 D 为 键 ， 算法 就 可 以 将 它们 导入 到 一 个 
mapper 中 ， 并 输出 该 列 和 用 户 偏好 的 乘积 。 这 个 步 又 见 代 但 清单 6-7。 

(1) mapper 的 输入 是 按 物 品 组 织 的 所 有 共 现 矩阵 列 和 用 户 偏 好 。 例 如 590 / [22:3.0,95: 
1. 0,...,9059:1.0,...] 和 590 / [98955:1.0]。 

(2) mapper 的 输出 是 共 现 关系 列 乘 以 每 个 对 应 用 户 的 俩 好 全 。 例 如 590 / [22:3.0,95: 
| 

(3) 框 染 按 用 户 将 这 些 来 积 汇集 在 一 起 。 

(4) reducer 将 输入 的 所 有 问 量 拆 开 后 求 和 ， 形 成 对 该 用 户 的 最 终 推 存 问 量 R。 例 如 590 / 
| 


代码 清单 6-7 计算 部 分 推荐 向 量 
public class PartialMultiplyMapper extends 
Mapper<IntWritable,VectoraAndPrefsWritable, 
VarLongWritable,VectorWritable> f{ 
Public void map{tIntWritable key, 
VectorAndPprefsWritable vectorAndPprefsWritable, 
Context context) throws IOException, InterruptedException { 


Vector cooccurrenceColumn = vectorAndPrrefsWritable.getVector!().; 
List<Long> userIDs = vectorAndprefsWritable.getUserIDs!().; 
List<Float> prefValues = vectoraAndPrefsWritable.getVvalues (); 


for {int 1 = 0; 1 < userIDs.size(); 1i++) { 
long userID = userIDs.get (1); 
float prefValue = prefValues.get (1); 


Vector partialProduct = cooccurrenceColumn .times {prefValue}):; 
context .write(new VarLongWritable (userID), 
new VectorWritable (partialProduct)): 
} 
} 
} 


这 个 mappper 会 写 很 多 数据 。 对 于 每 个 用 户 -物品 关联 ， 它 都 会 输出 共 现 矩阵 中 一 个 完整 列 的 副 
本 。 这 几乎 是 必须 的 ， 这 些 副本 要 在 reducer 中 和 其 他 列 的 副本 组 合 与 相 加 ， 以 生成 一 个 推荐 回 量 。 

但 是 这 个 阶段 可 以 引入 一 个 优化 :combiner 它 就 像 一 个 小 型 的 reducer 操 作 ( 实际 上 ,combiner 
也 扩展 了 Reducer )， 它 当 map 的 输出 仍 在 内 存 时 执行 ， 在 输出 记录 未 被 执行 写 操作 之 前 将 几 个 
记录 合并 为 一 个 。 这 会 六 省 WO， 而 这 种 事 并 不 和 常见。 在 这 里 ， 对 一 个 用 户 输出 两 个 向 量 A 和 B， 
就 和 对 这 个 用 户 输出 一 个 癌 量 A+B 一 样 一 一 它们 在 最 后 都 会 被 加 在 一 起 。 
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代码 清单 6-8 给 出 了 一 个 combiner, 处 理 PartialMultiplLvMappez 的 输出 。 它 能 和 省 多 少 IO 
取决 于 Hadoop 在 写 入 磁盘 前 在 内 存 中 能 够 存放 多 少 输出 结 采 (map 溢 出 组 种 区 ), 以 及 在 map 王 点 
的 输出 中 涉及 一 个 用 户 的 列 出 现 得 有 多 频繁 。 也 就 是 说 ， 如 果 大 量 Mapper 的 输出 被 存放 在 内 存 
中 ， 它 们 很 多 都 可 以 被 合并 ,那么 combiner 就 会 太 省 大 量 的 LO。Mahout 对 这 些 作业 的 实现 会 尝 
试 将 io. sort .mp 增 大 到 1 GB， 来 为 mapper 的 输出 了 预 留 比 平时 更 多 的 内 存 。 


代码 清单 6-8 实现 部 分 乘积 的 combiner 


Dublic class AggregateCombiner extends 
Reducer<vVvarLongWritable,VectorWritable, 
VarLongWwWritable,VectorWritable> { 
public void reduce (varLongWritable key, 


Iterable<VectorWritable> values, 
Context context) 
throws IOExcCception, InterruptedException f{ 
Vector Partial = null; 


for (VectorWritable vectorWritable 
partial = partial == null ? 
vectorwWritable.get!{) 


: Vvalues) f{ 


: partial .plus (vectorWritable.get())., 
} 


context .write{key, new VectorWritable (partial)})}:; 


6.3.6 ”向 MapReduce 转 换 : 形成 推荐 
最 后 ， 算 法 为 每 个 用 户 合并 推荐 回 量 ， 以 形成 推荐 结果 ， 如 代码 清单 6-9 所 示 。 
代码 清单 6-9 处理 来 和 目 向 量 的 推荐 结 


public class AggregateaAndRecommendReducer extends 
Reducer<VarLongWritable,VectorWritable, 


VarLongWritable,RecommendedItemsWritable> ({ 


Public void reduce (VarLongWritable key, 


Iterable<VectorWritable> values, 
Context context) 
throws IOException, InterruptedException { 


Vector recommendationVector = null:; 


for (VectorWritable vectorWritable : values)}) 1 


recommendationVector = recommendationVector == null ? 
vectorWritable.get!t) 
求 和 以 形成 推荐 向 量 
recommendationVvector.plus (vectorwWritable.get!{)).， 


} 


Queue<RecommendedItem> topItems = new PriorityQueue<RecommendedItem>! 


recommendationsPerUser + 1, 
Collections.reverseOrder ( 
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ByValueRecommendedItemComparator.getIinstance(}))}))}).: 


Iterator<Vector.Element> recommendationVectorIterator = 
recommendationVector.iterateNonzZero!{():;: 
while {recommendationVectorIterator.hasNext()) { 
Vector.Element element = recommendationVectorIterator.next!{): 


int index = element.indext{(}: 
float value = (float) element .get(); 
if {topItems.size(} < recommendationsPerUser) ff 
topItems.add (new GenericRecommendedItem!t 
indexItemIDMap.get (index)}, value})); 


} else if (value > topItems.peek!() .getVvalue{(}) ({ 


topItems.add (new GenericRecommendedItem! 找到 最 大 的 N 个 值 
indexItemIDMap.get (index}, value)).: 


topItems.poll(); 


List<RecommendedItem> recommendations = 


new ArrayList<RecommendedItem> (topItems.size())}).; 
recommendations.addAll (topItems)}).; 
Collections.gsort(recommendations, 
ByValueRecommendedItemComparator.getInstance{())}): 


context .writel! 
key, 
new | 按 序 输出 推荐 结果 
RecommendedItemsWritable (recommendations)).; 
} 
} 


输出 最 后 以 一 个 或 多 个 压缩 文本 文件 的 形式 存放 在 HDFS 上 。 该 文本 文件 的 行 采 用 如 下 形式 : 

了 [103:24.5,102:18.5,106:16.5] 

每 个 用 户 ID 之 后 跟随 一 个 以 逗号 分 隔 的 物品 ID 列表 ( 物品 了 后 跟着 一 个 冒号 和 推荐 向 量 中 的 
对 应 条 目 , 不 论 其 是 否 有 用 ) 应 用 可 以 从 HDFS 中 获取 、 解 析 与 使 用 这 个 输出 结果 。 注 意 从 Mahonut 
中 获得 的 输出 结 来 都 是 gzip 压 绣 过 的 ， 这 样 做 是 为 了 市 省 空间 。 

最 终 , 我 们 用 来 自 Wikipedia 数 据 集 的 原始 输入 数据 获得 了 推荐 结 来 。 如 你 所 见 ， 即便 是 这 样 
简单 的 推荐 程序 , 在 Hadoop 这 样 的 分 布 式 系统 上 做 设计 和 实现 时 , 都 会 如 此 不 同 。 即 便 是 简化 的 
形式 ， 它 仍 包 含 S 个 阶段 ， 每 个 阶段 执行 其 中 一 部 分 计算 或 转换 。 下 一 步 目 然 是 将 它们 全 午 运 转 
起 来 ,来 更 好 地 理解 推荐 是 如 何 实际 工作 的 。 
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现在 是 时 候 在 Wikipedia 链 接 数 据 集 上 运行 这 个 实现 了 。 虽 然 Hadoop 有 能 力 在 上 千 合 机 各 的 
集群 上 运行 , 但 是 你 首先 会 在 只 有 一 台 机 带 的 集群 上 运行 Hadoop 计 算 : 你 的 本 机 。 相 比 于 一 个 适 
当 的 集群 ， 学 习 在 本 地 计算 机 上 建立 Hadoop 集 群 要 人 简单 得 多 。 

这 个 过 程 不 会 和 使 用 一 个 真实 集群 有 很 大 差别 。 首 先 , 你 需要 在 本 机 上 安装 一 个 伪 分 布 式 的 
Hadoop 人 集群， 然后 就 可 以 在 上 面 使 用 Mahout 运 行 MapReduce 作 业 。 
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6.4.1 安装 Hadoop 


如 第 1 章 所 述 ， 你 需要 从 Apache 下 载 一 个 最 新 的 Hadoop 副 本 ( http://hadoop.apache.org/ 
common/releases.html )。 本 书写 作 时 , 我 们 推荐 使 用 的 版 本 为 0.20.2。 遵照 http://hadoop.apache.org/ 
common/docs/current/single node setup.html 的 安装 指导 ， 配 置 为 伪 分 布 方式 。 

在 使 用 pin/start-all .sh 运行 Hadoop 的 守护 进程 之 前 , 要 在 conf/mapred-site.xml 中 做 一 个 
修改 ， 增 加 一 个 名 为 mapred.child. Java.opts 的 属性 ， 值 为 -Xmx1024m。 这 会 让 Hadoop 的 
worker 能 够 使 用 1 GB 的 堆 空 间 。 一 旦 你 开始 运行 所 有 的 Hadoop 守 护 进程 ， 就 可 以 结束 安装 。 

你 现在 可 以 在 本 机 上 运行 一 个 包含 HDFS 实 例 的 完整 Hadoop 和 集群 。 输 入 要 放 在 HDFS 上 ， 这 
样 才能 为 Hadoop 所 用 。 你 也 许 会 感到 奇怪 , 既然 数据 已 经 在 本 地 文件 系统 上 了 , 为 什么 还 要 再 复 
制 到 HDFS 上 。 回 顾 一 下 ,通常 Hadoop 是 一 个 运行 在 许多 机 帮 上 的 框架 ， 因 此 它 使 用 的 任何 数据 
都 应 该 能 被 多 人 台 机 需 看 见 ， 而 不 是 一 人 台 。HDFS 能 够 让 多 人 台 机 需 获 得 数据 。 使 用 如 下 命令 复制 输 
入 到 HDFS 上 : 

pin/hadoop fs -put links-simple-sorted.txt input/input.txt 

有 要 为 数据 集中 的 每 篇 文章 都 生成 推荐 会 花费 很 长 的 时 间 , 因为 只 有 一 台 机 妖 运 行 , 还 引入 了 
分 布 式 计算 框架 的 开销 。 但 你 可 以 决定 Mahout 的 推荐 次 数 ， 比 如 说 仪 为 一 个 用 户 (文章 ) 进行 计 
算 。 创 建 一 个 只 有 一 行 的 文件 ， 包含 数 字 3， 并 将 其 存 为 users.txt。 这 就 是 算法 会 为 之 生成 推荐 的 
文章 列表 ， 在 测试 中 只 有 一 篇 文 草 。 把 它 放 入 HDFS 实 例 中 ， 命 令 如 下 : 


bin/hadoop fs -put users.txt input/users.txt 


6.4.2 ”在 Hadoop 上 执行 推荐 


org.apache.mahout.cf.taste.hadoop.item.RecommenderJob 将 各 种 Mapper 和 
Reducez 组 件 粘连 在 一 起 。 你 可 以 在 Mahout 源 发 布 中 找到 它 。 它 配置 并 调用 我 们 之 前 讨论 的 一 系 
列 MapReduce 作 业 这 些 MapReduce 及 其 之 间 的 关系 如 图 6-2 所 示 。 

为 了 运行 RecommenderJ ob 并 让 Hadoop 来 运行 这 些 作业 ,你 需要 将 所 有 这 些 代 人 码 及 其 依赖 的 
所 有 代码 打包 为 一 个 JAR 文 件 。 这 很 容易 通过 在 Mahout 发 布 包 的 core/ 目 录 下 运行 mvn clean 
package 来 完成 一 一 生成 一 个 类 似 mahout-core-0.5-job.jar 这 样 的 文件 , 男 外 ,你 也 可 以 使 用 Mahout 
发 布 包 中 预 编 详 的 作业 JAR 包 。 

现在 ， 开 始 运行 这 些 命令 : 


hadoop jar mahout-core-0.5-jJob.jJar \ 


org.apache,.mahout.cft.taste.hadoop.1item.RecommenderJob \ 
-Dmapred.input.dir=input/input.txt \ 


-Dmapred.output.dir=output --usersFile input/users.txt --booleanData 

Hadoop 会 接手 并 开始 运行 这 一 系列 的 作业 。 这 会 花 上 几 个 小 时 , 因为 只 有 一 侣 机 带 ( 你 的 本 
机 ) 在 处 理 这 个 计算 。 即 使 通过 一 组 机 带 ， 也 不 能 期 等 能 在 儿 分 钟 内 完成 任务 ; 初始 化 集群 的 开 
销 、 分 布 数 据 并 执行 代码 ， 还 有 整理 结果 都 会 伦 很 多 时 间 。 
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RecommenderJob 


攻 ToltemPref Mapper i | ToUserVectorReducer 
UserVectorTo Cooccurrence UserVectorlo 
CooccurrenceMapper Combiner CooccurrenceReducer 


User Vector 
SplitterMapper 


Hadoop 
图 6-2 RecommenderJopb 之 间 的 关系 、 它 调用 的 MapReduce， 以 及 同 HDFS 读 写 的 数据 


实际 上 ， 硅 在 单机 集群 上 为 这 个 数据 集 的 全 部 570 万 用 户 进 行 推荐 ， 这 会 花费 大 约 700 小 时 的 
CPU 时 间 , 每 次 推荐 大 概 用 半分 钟 。 运行 时 间 取 决 于 最 后 的 阶段 , 那里 会 有 癌 量 乘 和 癌 量 加 的 操作 。 
时 间 开 销 会 比 在 规模 较 小 的 非 分 布 式 推荐 程序 上 还 多 ， 只 是 还 到 不 了 几 倍 那么 高 。 依 据 当前 在 
Amazon Elastic MapReduce 上 运行 虚拟 实例 的 价格 ,每 1000 个 用 户 会 花费 大 约 0.01 美 元 。 当 然 ， 不 必 
花费 700 小 时 来 计算 所 有 这 些 推荐 如 果 部 署 了 100 个 工作 节点 ， 整 个 过 程 用 7 个 多 小 时 就 能 完成 。 

回 到 本 机 的 实例 ， 如 果 你 耐心 地 等 待 它 完成 对 一 个 用 户 的 推荐 ， 就 会 在 HDFS 的 output/ 目 录 
下 找到 绪 采 。 结 末 存 在 一 个 名 为 partr-00000 的 文件 中 。 

使 用 命令 bin/hadoop fs -get output/part-r-00000 将 结果 复制 到 本 地 文件 系统 ， 就 
可 以 访问 并 使 用 这 个 文件 了 。 
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庆祝 一 下 ， 这 样 就 完成 了 ! 你 已 经 利用 一 个 完全 分 布 式 的 框 染 (单方 点 集群 ) 生成 了 推荐 结 
果 。 最 后 ， 不 要 忘记 通过 bin/stop-all. sh 来 关闭 Hadoop。 


6.4.3 配置 mapper 和 reducer 


这 里 有 一 个 要 点 。 以 前 , 我 们 让 Hadoop 默 认 每 次 仅 运 行 一 个 map worker 和 一 个 reduce worker。 
这 是 合理 的 ， 因 为 当时 算法 仅 在 一 全 单机 上 运行 。 但 是 ， 当 局 动作 业 的 集群 有 许多 人 台 机 硕 时 ,一 
个 worker 就 太 少 了 。 在 一 个 真实 的 集群 中 ，worker 的 个 数 可 以 通过 如 下 命令 行 参 数 来 控制 : 

-Dmapred.map.tasks=X -Dmapred.reduce.tasks=Y 

开始 时 可 以 用 集群 中 核 的 个 数 来 设置 XfIY。, 例如 ,如果 你 的 集群 有 5 台 4 核 的 机 器 ,就 将 它们 
均 设 为 20。 

至 此 ， 你 已 经 成 功 地 在 Hadoop 上 设计 实现 了 一 个 分 布 式 算法 、 安 装 了 一 个 Hadoop 和 集群 ， 并 
让 实现 在 Hadoop 上 运行 起 来 。 这 就 是 所 需 学 习 的 大 部 分 内 容 ， 而 与 真实 的 Hadoop 集 群 交互 本 质 
上 与 此 相同 。 这 还 会 让 你 能 够 使 用 Mahout 处 理 其 他 基于 MapReduce 和 基于 Hadoop 的 机 需 学 习 算 
法 ， 它们 会 在 以 后 的 章节 中 出 现 。 

在 结束 对 推荐 程序 的 讨论 之 前 ， 我 们 再 来 看 Mahout 中 另 一 种 基于 Hadoop 的 推荐 程序 ， 它 是 
一 种 介 于 分 布 式 和 非 分 布 式 方法 之 间 的 混合 物 。 
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我 们 之 前 描述 了 如 何在 单机 上 通过 Mahout 创 建 \ 测试 并 操作 各 种 非 分 布 式 推荐 引擎 。 本章 说 
明 如 何 采 用 一 种 截然 不 同 的 方式 运行 一 个 完全 分 布 式 的 推荐 程序。 不 过 , 这 里 的 情况 介 于 分 布 式 
和 非 分 布 之 间 ， 因 为 面 咎 的 是 希望 使 用 非 分 布 式 实现 在 多 机 上 运行 的 应 用 。 

这 些 应 用 已 经 在 非 分 布 式 框 架 下 开发 出 高 效 的 定制 化 实现 。Recommender 的 实现 也 许 与 所 
有 的 非 分 布 式 实现 一 样 ， 是 与 DataModqe1 有 接 绑 定 的 ， 需 要 对 所 有 数据 进行 局 效 和 随机 的 访问 。 
因此 ， 我 们 很 难 或 无 法 按照 完全 分 布 的 方式 来 改造 它 。 

Mahout 为 此 提供 了 一 个 伪 分 布 式 的 推荐 引擎 框架 。 这 只 是 一 个 对 Hadoop 的 应 用 ，Hadoop 可 
以 并 行 地 运行 给 定 推荐 引擎 的 多 个 独立 、 非 分 布 式 的 实例 。 因此 , 我 们 可 以 轻松 地 让 一 个 成 熟 的 、 
非 分 布 式 算 法 使 用 许多 机 需 。 这 种 机 制 实 际 上 并 没有 将 计算 并 行 化 , 它 只 是 管理 了 多 个 非 分 布 式 
实例 的 操作 。 性 能 与 卫 接 运行 一 个 非 分 布 式 的 实例 相同 , 但 是 它 允 许 你 在 2 人 台 机 天 上 运行 2 个 推 存 
程序 ， 每 个 处 理 1 的 推荐 ， 所 用 时 间 也 就 变 成 单机 的 lna。 

这 种 方法 的 缺点 是 可 扩展 性 受 限 : 一 个 非 分 布 式 的 计算 无 法 处 理 更 大 量 的 数据 , 这 是 由 运行 
它 的 机 天 的 换 源 所 决定 的 一 一 一 个 不 适合 在 一 台大 机 需 上 做 的 运算 转 到 xz 个 独立 的 大 机 硕 上 运行 
也 不 会 适合 。 伪 分 布 不 会 改变 这 一 后 。 

这 里 没有 引入 新 的 算法 和 代码 ; Mahout 的 伪 分 布 式 推荐 引 敬 框架 仍 用 原来 的 Recommender， 
但 是 在 Hadoop 之 上 运行 。 从 概念 上 看 ， 它 使 用 Hadoop 将 用 户 集合 分 在 z 台 机 需 上 ， 并 把 输入 数据 
复制 到 每 台 机 需 ， 然 后 在 每 台 机 融 上 运行 Recommenaer 对 一 个 用 户 子 集 进行 推荐 。 
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这 个 过 程 和 以 前 没有 什么 两 样 。 安 装 和 运行 Hadoop， 把 包含 偏好 的 输入 文件 复制 到 HDFS。 
如 有 果 你 希望 尝试 这 个 框架 ,选择 一 个 输入 ， 比 如 GroupLens 100 K 数 据 集中 的 ua.base。( Wikipedia 
链接 数据 集 太 大 而 无 法 用 于 非 分 布 式 实现 。) 这 个 数据 集中 的 输入 文件 ua.base 和 需要 做 一 个 小 转换 
才能 被 这 段 代码 处 理 ， 即 制 表 符 必须 转换 为 逗号 。 你 可 以 用 自己 喜欢 的 编辑 如 来 做 这 件 事 ,或 者 
使 用 如 下 Unix 命 令 : 
cut -f£f1-3 ua.base | tr '\t' ',' > ua.base.hadoop 
将 ua.base.hadoop 放 入 HDFS， 例 如 input/ua.base.hadoop。 
框架 需要 知道 Recommender 实 现 的 名 称 , 以 便 对 它 初 始 化 和 使 用 。 对 于 这 个 实现 只 有 一 个 要 
求 ， 即 它 必须 提供 一 个 包含 唯一 参数 DataModel 的 构造 水 数 。 有 了 这 个 构造 函数 , 框架 就 可 以 做 
余下 的 工作 。 通 常情 况 下 ， 你 会 在 这 里 提供 一 个 为 自己 的 应 用 定制 的 Recommender。 但 在 测试 
时 ， 用 slopeoneRecommendaezr 就 可 以 ， 因 为 它 就 可 以 仅 通 过 DataModqe1 人 参数 进行 初始 化 。 
文件 mahout-core-0.5-job.jar 已 经 包含 了 SlopeOoneRecommender ， 因 为 它 是 一 个 标准 的 
Mahout 实 现 。 但 是 如 果 使 用 的 是 目 己 的 实现 ， 你 就 需要 把 它 及 其 依赖 的 类 放 在 JAR 文 件 里 。 最 后 
用 如 下 命令 来 完成 : 
jar uf mahout-core-0.5-job.jar -C [classes directory] 
其 中 ， 类 目录 (class directory ) 存放 由 IDE 或 其 他 构建 工具 编译 出 的 代码 。 
最 后 ， 运 行 这 个 作业 : 
hadoop jar mahout-core-0.5-job.jar \ 
org.apache.mahout.cf.taste.hadoop.pseudo.RecommenderJob 、 
-Dmapred.1input.dir=input/ua.base.hadoop 、 
-Dmapred.output .dir=output \ 


--recommenderClassName \ 
org.apache.mahout.cft.taste.impl.recommender.slopeone.SlopeoneRecommender 


你 同样 会 在 HDFS 的 output/ 目 录 下 看 到 输出 结 
这 就 是 全 部 过 程 ; 如 果 输 入 数据 未 达到 需要 真正 分 布 式 算法 的 规模 , 伪 分 布 式 推荐 框架 是 一 
种 又 快 又 好 的 办 法 ， 可 以 利用 更 多 的 计算 能 力 来 更 快 地 获得 推荐 结果 。 


6.6 ”深入 理解 推荐 


本 章 所 介绍 的 Mahout 推 荐 引擎 的 分 布 式 部 分 仍 在 开发 中 ,所 以 阅读 时 请 参考 最 新 的 文档 和 代 
人 码 ， 天 注 Mahout 以 获悉 它 的 变化 。Mahout 算 是 一 个 “半成品 ”， 由 一 个 不 断 成 长 的 社区 开发 与 维 
护 ; 我 们 的 目标 是 不 断 地 完善 或 增强 对 推荐 程序 和 机 末 学 习 的 领悟 和 有 效 使 用 能 

在 探讨 肾 类 和 分 类 算法 之 前 , 我 们 将 简要 而 明晰 的 想法 归结 起 来 , 作为 后 续 思 考 和 了 人 解 推 大 
引擎 的 起 后。 


6.6.1 在 云 上 运行 程序 
你 找 不 到 100 台 机 器 运行 这 些 大 型 分 布 式 计算 ? 没关系 ， 如 今 服务 提供 商 允 许 你 从 一 个 计算 
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云 上 租用 存储 和 计算 时 间 。 

亚马逊 的 Elastic MapReduce 服 务 ( http://aws.amazon.com/elasticmapreduce/ ) 就 是 这 样 一 个 服 
务 , 如 网 6-3 所 示 。 它 使 用 亚马逊 的 S3 存 储 服务 ( 而 不 是 一 个 单纯 的 HDFS 实 例 ) 在 云 上 存储 数据 。 
上 传 JAR 文 件 和 数据 到 $3 之后， 你 就 可 以 使 用 它们 的 AWS Console 调 用 一 个 分 布 式 计算 ， 只 和 需 提 
供 过 去 在 命令 行 下 调用 计算 时 使 用 的 相同 参数 。 


Please review the details of your job flow and click "Create Job Flow”when you are ready to | 


Job Flow Name: My Job Flow 

Type: Custom Jar 

Jar Location: Ss3://my-bucket/mahout.jar 

Jar Arguments: org.apache.mahout.cf.taste.hadoop.item.Recomme 


nderJob ~—-Dmapred.map.tasks=10 - 
Dmapred.reduce.tasks=10 — 


Number of Instances: 10 

Type of Instance: mil.small 
Amazon EC2 Key Pair: 

Amazon S3 Log Path: 

Enable Hadoop Debugging: No 


Bootstrap Actions: No Bootstrap Actions created for this Job Flow 


Back | Create Job Flow 


图 6-3 ”亚马逊 的 AWS Elastic MapReduce 控 制 台 


进入 AWS Console 主 界面 之 后 ,选择 Amazon Elastic MapReduce 栏 ,再 选择 Create New Job Flow 
(创建 新 作业 流 ) 选项 。 给 这 个 新 的 流 ( flow ) 命名 ， 并 指定 Run Your Own Application ( 运行 自 
己 的 应 用 程序 )。 选 择 Custom Jar ( 目 定 义 Jar ) 类 型 并 继续 。 指 定 S3 上 JAR 文 件 的 放置 位 置 ; 形式 
为 $3:URL， 类 似 于 s3://my-bucket/target/mahout-core-0.5-job.jar。 

作业 的 参数 和 在 命令 行 下 运行 时 一 样 ; 当然 在 这 里 配置 mapper 和 和 reducer 的 个 数 是 非常 必 
要 的 。mapper 和 reducer 的 个 数 可 以 依 你 的 豆 好 来 定 ; 和 以 前 一 样 ， 开 始 时 可 以 设置 为 你 为 计 
算 预 留 的 虚拟 核 的 个 数 。 虽 然 可 以 使 用 任意 的 实例 类 型 ， 但 除非 有 特别 的 原因 ， 否 则 开始 时 
部 用 一 个 常规 类 型 small、large 或 extra-large。 实 例 的 个 数 和 类 型 在 下 一 个 AWS Console 界 面 
中 选择 。 

如 果 输 入 数据 非常 大 一 些 推 荐 作业 ( 如 在 org .dpache.mahout.cf.taste.hadoop.item 
中 的 作业 ) 可 能 需要 为 每 个 mapper 或 reducer 分 配 更 多 的 RAM。 此 时 ， 你 也 许 不 得 不 选择 一 个 
high-memory 实 例 类 型 。 你 可 能 还 需要 用 到 high-CPU 实 例 类 型 ， 风 险 是 作业 会 花费 过 多 的 时 间 从 
S3 中 谈 写 数据 来 肯 饱 这 些 贫 禁 的 CPU， 否 则 它们 大 部 分 时 间 会 “很 俄 "”。 因 此 ， 传 统 的 实例 类 型 
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是 一 个 很 好 的 起 点 。 如 果 你 正在 使 用 small 实 例 类 型 ,其 中 每 个 实例 拥有 一 个 虚拟 核 , 就 可 以 设置 
mapper 和 reducer 的 个 数 为 你 选择 的 实例 个 数 。 

你 可 以 保持 其 他 参数 不 动 ， 除 非 有 理由 变更 它们 。 

这 里 介绍 了 在 Elastic MapReduce 上 运行 一 个 推荐 作业 的 基础 内 容 ; 参考 亚马逊 的 文档 可 以 了 
解 更 多 关于 监视 、 停 止 和 调试 这 些 作业 的 信息 。 


6.6.2 考虑 推荐 的 非 传 统 用 法 


我 们 对 推荐 程序 的 讨论 即将 收尾 。 但 在 探讨 聚 类 之 前 ， 有 必要 转换 一 下 思路 ， 最 后 讨论 一 下 
推 存 程 序 在 你 项 目 中 的 适用 性 。 
虽然 Mahout 推 荐 引擎 的 API 是 用 “用 户 ” 和 “物品 ”表述 的 ,但 这 个 框 染 并 不 假设 “用 户 ” 
就 是 人 ， 也 不 假设 “物品 ” 束 是 书 或 DVD 这 样 的 物品 。 例如， 推荐 引擎 可 应 用 在 约会 网 站 的 数据 
上 为 某 个 或 果 些 人 推荐 某 个 或 某 些 人 ,还 可 以 怎样 使 用 推荐 引擎 呢 ?” 下 面 这 些 思路 可 以 引发 你 的 
思考 。 
口 为 物品 推荐 用 户 “ 通 过 物品 疡 和 用 户 ID 的 交换 ， 推 荐 引擎 的 输出 转变 为 : 哪些 用 户 会 对 
指定 物品 更 感 兴趣 。 
口 扩展 物品 的 范畴 ”给 定 与 用 户 关 联 的 地 方 、 时 间 、 使 用 模式 或 者 其 他 人 ， 就 可 以 为 之 推 
荐 相同 类 型 的 物品 (地方 、 时 间 、 使 用 模式 或 者 其 他 人 )。 
口 找到 最 相似 的 物品 Mahout 中 基于 物品 的 推荐 程序 实现 使 得 发 现 一 组 最 相似 的 物品 变 得 


很 容易 。 
口 扩展 偏好 值 的 范畴 ”通常 无 法 从 用 户 那 里 获得 明确 的 偏好 值 。 你 只 能 根据 所 了 解 的 用 户 
对 事物 的 关系 来 推测 。 


口 考虑 不 止 一 个 用 户 和 物品 ”可 以 为 一 对 用 户 进行 推荐 ， 即 把 一 对 用 户 视 为 一 个 用 户 。 你 
还 可 以 把 物品 及 其 位 置 统一 视 为 一 个 物品 来 进行 推荐 。 

Mahout 没 有 为 这 些 应 用 案例 提供 专门 的 支持 , 但 它们 都 可 以 在 Mahout 之 上 实现 。 这 也 许 是 
Mahonut 未 来 的 一 个 发 展 方向 ， 也 或 许 会 出 现在 一 些 专 用 的 第 三 方 项 目 中 。 需 要 特别 指出 的 是 ， 
基于 用 户 的 行为 和 其 他 数据 来 推测 隐 含 的 评分 , 这 本 吴 就 很 有 趣 且 很 重要 , 但 非 Mahout 所 关注 
的 内 容 。 


6.7 小结 


本 革 我 们 人 简要 审视 了 来 自 于 维基 百科 文章 链接 的 大 型 数据 集 。 它 庞大 的 1.3 亿 偏好 值 需 要 一 
个 不 同 的 分 布 式 推荐 生成 方法 。 

我 们 权衡 了 从 单机 非 分 布 式 算法 癌 集 群 分 布 式 计算 过 渡 的 过 程 。 接 着 我 们 简要 介绍 了 
MapReduce 汇 式 及 其 在 Hadoop 上 的 实现 ， 它 是 管理 这 种 分 布 式 计算 的 一 种 手段 。 

我 们 将 之 前 基于 物品 的 推荐 算法 转换 为 一 种 不 同 的 分 布 式 实现 , 后 者 依赖 于 和 矩阵 和 癌 量 操作 
来 发 现 最 佳 推 荐 。 我 们 再 次 使 用 Wikipedia 数 据 集 ， 让 它 可 在 Hadoop 中 使 用 ， 并 在 本 地 Hadoop 和 
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HDFS 实 例 上 为 该 数据 集 生 成 推荐 。 

最 后 ， 我 们 用 Mahout 做 了 伪 分 布 式 推荐 的 计算 : 在 Hadoop 上 运行 了 非 分 布 式 Recommender 
实现 的 几 个 独立 实例 。 

这 就 是 Mahout 上 的 推荐 引擎 。 至 此 , 我 们 有 序 地 介绍 了 机 器 学 习 中 一 个 方面 ,从 小 输入 和 非 
分 布 式 计算 逐步 过 渡 到 了 大 规模 的 分 布 式 计算 。 现 在 ， 我 们 将 转 而 讨论 Mahout 上 的 聚 类 和 分 类 ， 
它们 涉及 更 多 复杂 的 机 器 学 习 理 论 ， 并 会 更 多 用 到 分 布 式 计算 。 有 了 推荐 引擎 ,你 已 经 为 此 做 好 
了 准备 。 请 继续 读 下 去 。 


聚 类 


本 书 这 一 部 分 ， 贯 军 第 7 章 到 第 12 章 ， 讨 论 Apache Mahout 中 的 聚 类 算法 。 利 用 这 里 描述 的 技 
术 ， 我 们 可 以 把 相近 的 数据 片段 归 为 一 个 集合 或 者 徐 。 聚 类 有 助 于 揭示 大 规模 数据 中 信息 的 有 趣 
有 会 

这 一 部 分 首先 讲述 聚 类 中 的 简单 问题 ， 给 出 了 一 些 Java 示 例 。 之 后 ， 你 会 看 到 更 多 在 真实 场 
景 下 的 示例 ， 并 学 会 让 Apache Mahout 以 Hadoop 作 业 的 方式 运行 ， 以 便 轻 松 地 对 大 量 数据 进行 聚 

第 7 章 介 绍 了 聚 类 的 定义 ， 并 通过 一 个 对 二 维 平面 上 点 的 聚 类 示例 展开 阐释 。 第 8 章 介绍 了 
器 量 的 概念 ， 并 解释 了 如 何 使 用 它们 表示 数据 。 第 9 章 介 绍 了 Apache Mahout 中 实现 的 各 种 聚 类 算 
法 。 这 一 章 通过 清晰 的 例子 展示 了 各 种 聚 类 算法 是 如 何 适 应 各 种 应 用 场景 的 。 

第 10 章 介绍 如 何 评估 聚 类 ， 以 及 如 何 通过 调节 Mahout 中 的 各 种 选项 和 参数 改进 聚 类 质量 。 
第 11 章 讨论 了 Apache Mahout 聚 类 的 分 布 式 实 现 ， 解 释 了 聚 类 如 何以 Hadoop 作 业 的 形式 运行 以 处 
理 大 数据 集合 。 

最 后 ， 第 12 章 基于 上 述 各 章 的 内 容 探 讨 了 一 些 现实 场景 下 的 聚 类 问题 ， 以 及 基于 Apache 
Mahout 的 解决 方案 。 


本 章 内 容 

口 初 识 聚 类 

口 相似 性 概念 的 理解 

口 在 Mahout 中 运行 简单 的 聚 类 示例 
口 用 于 聚 类 的 各 种 距离 测度 方法 


人 类 倾 问 于 跟 志 趣 相投 的 人 在 一 起 ， 也 就 是 “ 物 以 类 聚 ， 人 以 群 分 "。 我 们 有 足够 的 智力 寻 
找 重 复 的 模式 , 我 们 不 断 将 看 到 的 、 听 到 的 、 闻 到 的 和 品 答 到 的 与 记忆 中 已 经 存在 的 东西 相 联系 。 
举例 来 说 : 蜂 密 的 味道 提示 我 们 它 答 起 来 像 糖 而 不 是 盐 , 所 以 我 们 把 味道 像 糖 和 蜂蜜 的 东西 归 为 
醋 食 ， 即 使 不 知道 研 食 举 起 来 是 什么 样 , 我 们 也 知道 世界 上 所 有 有 甜 味 的 东西 都 是 类 似 的， 可 以 
归 为 同一 类 。 我 们 也 知 直 它们 与 那些 咸 的 东西 有 多 大 不 同 。 我 们 会 不 目 沉 地 把 味道 归 为 这 种 族 
(cluster )， 这 样 束 有 了 甜 味 和 咸 味 的 复 ， 每 个 禾 中 神 包 含 上 昌 种 东西 。 

在 自然界 ,我 们 可 以 观察 到 其 他 很 多 种 群 。 例 如 猴 和 猴子 ,它们 同属 于 灵 长 类 。 但 所 有 的 狐 
子 都 具有 相同 的 特征 ， 如 较 矮 的 对 材 、 长 尾巴 和 忆 平 的 盟 子 ， 而 狼 则 具有 更 大 的 体型 、 更 长 的 胜 
有 简 和 更 大 的 脑袋 。 猴 和 猴子 有 不 同 的 外 狐 ， 但 它们 都 喜欢 香 焦 。 因 此 ,我 们 既 可 以 认为 猴 和 猴子 
是 两 种 的 种 群 ， 也 可 以 认为 它们 都 属于 喜欢 香 焦 的 灵 长 类 动物 。 是 否 可 以 将 事物 归 成 一 个 能 ,这 
完全 取决 于 我 们 在 考量 它们 之 间 相 似 性 时 所 选择 的 特征 参数 〈 在 这 个 例子 里 则 是 灵 长 类 )。 

这 一 章 , 你 将 了 解 聚 关 是 什么 ,， 聚 类 是 怎样 与 数学 中 的 概念 相 联 系 的 ,并 看 到 Mahout 中 的 聚 
类 示例 。 现 在 ， 让 我 们 从 了 解 基本 概念 开始 吧 。 


7.1 涌 类 的 基本 概念 


那么 , 聚 关 过 程 是 怎样 的 呢 ? 假如 你 芝 管 春 一 个 有 几 千 本 藏书 图 书馆 的 钥 耳 ,而 这 些 书 的 摆 
放 又 坚 无 规律 可 言 。 那 么 进入 图 书馆 的 谈 者 就 不 得 不 从 所 有 的 书 中 一 本 一 本 地 去 找 他 想 要 的 书 。 
这 样 不 仅 非常 腑 烦 低 效 ， 而 且 很 乏味 。 

如 有 果 把 这 些 书 按 书 名 子 母 顺序 来 分 类 , 这 对 于 通过 书 名 来 查找 书籍 的 谈 者 会 有 很 大 帮助 。 但 
如 果 大 多 数 人 都 只 是 想 侧 单 地 浏览 图 书 ， 或 是 想 人 研究 一 个 很 党 统 的 主题 , 这 时 该 如 何 应 对 呢 ? 因 
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此 , 按照 主题 对 书籍 分 类 会 比 按照 书 名 字母 排序 更 有 用 。 但 是 这 种 分 类 该 从 何 做 起 呢 ? 假如 你 刚 
刚 接 手 这 项 工作 ,其 至 还 不 知 违 这 些 书 痢 涉 及 什么 内 容 一 一 网 上 冲浪 、 言 情 小 说 ， 亦 或 讨论 的 是 
一 些 你 从 未 遇 到 过 的 主题 。 
要 实现 基于 主题 的 分 类 , 你 可 以 把 所 有 书籍 控 成 一 排 ,然后 一 本 一 本 的 谈 。 生 到 读 到 一 本 书 
并 发 现 它 的 内 容 与 之 前 某 本 书 相 似 ,你 就 可 以 把 这 本 书 放 过 去 , 将 它们 堆 在 一 起 。 当 你 把 所 有 书 
全 部 谈 完 以 后 ， 就 会 有 几 百 堆 书 ， 而 不 是 儿 千 本 散 放 的 书 。 
非常 好 ! 这 是 你 关于 聚 类 的 第 一 次 体验 。 如 果 你 觉得 上 百 个 主题 太 多 了 ， 可 以 回 到 起 点 , 重 
复 前 面 把 书 分 成 堆 的 过 程 ， 下 至 书 堆 的 主题 之 间 具 有 足够 的 差异 。 
聚 类 束 是 将 一 个 给 定 文档 集 ( collection ) 中 的 相似 项 目 分 成 不 同 簇 的 过 程 。 我 们 可 以 将 这 些 
禾 看 做 一 组 禾 内 相似 而 复 间 有 别 的 项 目的 集合 。 
对 文档 集聚 类 涉及 如 下 三 件 事 。 
口 一 个 算法 ”即将 书 组 织 在 一 起 的 方法 。 
口 相似 性 和 不 相似 性 的 概念 ”在 前 面 的 讨论 中 ， 我 们 依赖 于 你 对 这 些 书 的 判断 ， 即 哪些 书 
属于 一 个 已 有 的 书 堆 ， 或 是 否 应 该 开始 弄 一 个 新 的 书 堆 。 
口 停止 的 条 件 ”在 这 个 图 书馆 的 例子 中 ， 有 一 个 关键 节点 ， 即 在 此 之 后 ， 书 不 能 再 加 入 书 
堆 ， 或 者 这 些 书 堆 之 间 已 经 具有 明显 不 同 的 主题 。 
目前 为 止 , 我 们 认为 对 项 目 聚 类 就 是 把 它们 堆 在 一 起 , 但 实际 上 就 是 对 它们 进行 了 分 组 。 而 
从 概念 上 看 ， 聚 类 更 接近 于 寻找 哪些 项 目 可 以 形成 相近 的 组 ， 然 后 把 它们 圈 起 来 。 图 7-1 给 出 了 
在 一 个 标准 x 平面 上 点 的 聚 类 示意 图 ， 每 个 圆圈 代表 一 个 族 ， 每 个 艇 包含 了 多 个 点 。 


秘 0 


》 轴 


x 轴 
图 7-1 在 xz? 平面 上 的 点 。 圆 圈 代 表 复 ， 而 平面 上 的 点 可 视 为 三 个 逻辑 组 。 


聚 类 算法 有 助 于 确认 这 些 组 
在 这 个 简单 示例 中 , 圆圈 清晰 地 展示 了 一 种 最 佳 聚 类 , 它 基 于 距离 远近 , 将 点 划分 成 三 个 复 。 
这 些 圆圈 能 让 我 们 很 好 地 理解 复 , 这 是 因为 篮 也 是 由 中 心 点 和 半径 来 定义 的 。 圆 圈 的 中 心 点 称 作 
这 个 禾 的 中 心 (centroid )， 或 平均 值 ( mean 或 average)。 这 个 点 的 坐标 值 就 是 这 个 禾 中 所 有 点 x 和 
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) 坐 标 值 的 平均 值 。 

本 章 ,我 们 把 聚 类 设想 成 一 个 几何 问题 , 且 还 会 运用 几何 学 技巧 来 解释 各 种 距离 的 度量 方法 ， 
它们 是 聚 类 算法 的 核心 。 我 们 还 会 关注 几 个 重要 的 距离 测度 方法 以 及 它们 与 聚 类 的 关系 。 这 将 有 
助 于 你 理解 文本 文件 的 聚 类 与 平面 上 点 的 聚 类 是 何其 相似 。 

在 后 面 的 革 市 里 ,我 们 会 探讨 一 些 数据 聚 类 时 的 第 用 方法 ,以 及 它们 在 Mahout 中 的 软件 实现 。 
在 图 书馆 案例 中 采用 的 各 略 是 合并 书 堆 直到 达到 茶 个 国 值 。 这 个 例子 中 的 族 个 数 取决 于 这 些 数 
据 ; 根据 书 的 个 数 和 国 值 的 不 同 ， 可 能 会 有 100 个 、20 个 复 ， 也 可 能 只 有 1 个 族 。 更 为 常见 的 宁 略 
是 设 定 一 个 复 的 目标 数量 ， 而 不 是 使 用 国 值 ， 然 后 就 在 这 个 限制 下 找到 最 佳 的 组 合 。 稍 后 ,我 们 
详细 诠释 这 种 方法 和 一 些 变 种 。 


7.2 项 目 相 似 性 度量 


凤 类 的 关键 在 于 寻找 一 个 可 以 量化 任意 两 个 数据 点 之 则 相似 性 的 函数 。 要 注意 我 们 在 整 本 书 
中 使 用 的 两 个 术语 : 物品 (item ) 和 点 (point )， 它 们 是 可 以 互相 和 奉 换 的 ， 都 是 指 一 个 要 被 聚 类 
的 数据 单元 。 

在 xz 一 ?平面 的 例子 中 ,， 对 那些 点 的 相似 性 度量 (Similarity metric ) 是 指 两 个 点 之 间 的 欧 氏 距 
离 。 图 书馆 的 例子 束 没 有 如 此 明确 的 数学 度量 方法 ， 而 是 完全 依赖 于 图 书 管理 员 的 智 间 来 判断 
书籍 之 间 的 相似 性 。 这 实际 上 并 不 满足 我 们 的 需求 ， 因 为 我 们 要 的 是 一 个 可 以 在 计算 机 上 实现 
的 度量 方法 。 

一 种 可 能 的 度量 方法 是 基于 两 本 书 的 书 名 中 相同 词 的 数量 ,。 例如 Harry Potter: The Philosopher’s 
Stone 和 Harry Potter: The Prisoner of Azkaban 两 本 书 的 书 名 中 有 3 个 共同 词 : Harry、Potter 和 The。 
然而 用 这 种 相似 性 度量 方法 就 无 法 找到 The Lord of the Rings: The Two Towers 与 Harry Potter 系 列 的 
相似 性 , 尽管 它们 是 相似 的 书籍 。 你 必须 修改 相似 性 的 度量 方法 , 使 其 能 够 顾及 书籍 本 号 的 内 容 。 
你 可 以 收集 每 本 书 的 词 频 , 如 条 这 些 书 的 词汇 交集 中 有 很 多 单词 的 词 频数 都 比较 接近 , 就 可 以 判 
基 这 些 书 是 相似 的 。 

但 遗憾 的 是 ， 说 起 来 容 多 做 起 来 难 。 不 仅 因 为 这 些 书 一 般 都 有 好 几 百 页 ， 还 因为 英 声 的 语言 
特性 本 里 也 会 让 这 种 度量 变 得 混乱 。 瑞 语 中 最 常用 的 一 些 词 ， 如 a、an 和 the， 它 们 虽然 总 会 在 两 
本 书 中 经 常 出 现 ， 但 很 难说 明 这 两 本 书 是 相似 的 。 

为 了 减少 这 些 词 的 影响 , 你 可 以 在 计算 的 时 候 使 用 数值 权重 , 给 这 些 词 较 低 的 权重 以 减少 它 
们 对 相似 值 的 影响 。 你 应 该 赋予 在 大 多 数 书 籍 中 都 会 出 现 的 词 较 低 的 权重 ,而 给 那些 只 出 现在 少 
数 几 本 书 中 的 词 较 高 的 权重 。 对 于 会 在 某 种 特定 书籍 中 才 经 党 出 现 的 词 , 你 也 可 以 给 予 它 们 较 融 
的 权重 ， 因 为 这 些 词 往 往 会 明显 地 提示 出 书籍 的 内 容 ， 例 如 Harry Potter 系 列 中 的 magic。 

一 旦 你 对 一 本 书 中 的 每 个 词 都 给 出 了 权重 ,那么 两 本 书 之 间 的 相似 性 就 是 在 所 有 单词 上 的 求 
和 一 一 某 个 特定 词 的 出 现 频率 乘 以 它们 的 权重 。 这 是 一 个 不 错 的 度量 方法 , 如 采 这 两 本 书 一 样 长 
有 的话 。 

如 琳 一 本 书 是 300 页 ， 而 为 一 本 书 是 1000 页 ， 又 会 怎样 呢 ? 的确， 一 般 来 说 ， 较 长 的 书 会 有 
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较 大 的 单词 计数 。 你 需要 确保 单词 的 权重 与 文章 的 长 度 相 关 。 给 任意 一 段 话 中 的 单词 赋予 权重 ， 
其 本 和 号 就 是 一 门 学 问 。 

TF-IDF ( Term Frequency-Inverse Document Frequency， 词 项 频率 - 逆 文 档 频率 ) 这 个 常用 加 
权 方 法 中 包含 了 上 述 这 些 搁 巧 以 及 许多 其 他 技巧 。 本草 会 从 平面 上 的 点 开始 讨论 , 之 后 的 几 章 会 
推进 到 对 加 权 方 法 的 理解 ， 进 而 会 深入 到 TF-IDF， 探 究 对 聚 类 质量 的 影响 。 下 面 ， 我 们 从 一 个 
Hello World 聚 类 示例 开始 。 
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Mahout 包 含 聚 类 的 多 种 实现 ， 如 k-means、 模 糊 k-means ( fuzzy k-means ) 和 canopy 等 。Hello 
World 示 例会 运行 k-means 算法 ， 而 后 续 各 半 将 审视 Mahout 中 的 其 他 算法 及 其 实际 应 用 。 


7.3.1 生成 输入 数据 


首先 ， 让 我 们 看 一 个 简单 的 示例 : 对 图 7-1 中 二 维 空间 中 的 点 进行 聚 类 。 

我 们 首先 创建 一 个 点 的 列表 以 便 聚 类 , Mahout 的 聚 类 算法 的 输入 数据 以 一 种 特殊 的 二 进 制 格 
式 存 储 ， 称 为 sequenceFile， 这 是 一 种 Hadoop 和 用 的 格式 。 输 入 数据 与 人 多 个 vector 中 ， 
个 Vector 代 表 一 个 点 。 


代码 清单 7-1 ”第 一 个 聚 关 示例 中 的 输入 样本 
a 
1 


(OO 0 有 CD PP 


) 
) 
) 
) 
) 
) 
| 
) 


MD CO DO O00 Po MM 


看 一 下 代码 清单 7-1 中 的 输入 数据 样本 。 图 7-2 将 之 画 在 x--y 平 面 上 ,可 清晰 地 分 出 两 个 谋 。 一 
个 族 包 含 平 面 上 一 个 区 域 中 的 5 个 点 ， 男 一 个 包含 为 一 个 区 域 中 的 4 个 点 。 

为 Mahout 聚 类 算法 输入 数据 的 过 程 有 三 个 步 又: 预 处 理 数据 , 使 用 数据 生成 向 量 , 以 及 存 为 
SequenceFile 格 式 。 对 于 点 ( point ) 而 言 ， 不 需要 做 预 处 理 ， 因 为 它们 已 经 是 二 维 平面 的 问 
你 只 需要 将 之 转换 为 一 个 Mahout 的 Vector 类 。 

当 上 听 到 回 量 (vector ) 这 个 词 时 ， 你 可 能 会 想起 高 中 物理 读 ， 回 量 在 当时 是 指 市 有 方 癌 的 入 
头 ， 而 不 是 空间 上 和 孤立 的 点 。 在 机 带 学 习 领 域 中 ， 回 量 这 个 词 指 的 是 一 个 有 序 的 数列 ， 它 究竟 是 
一 个 点 还 是 物理 学 的 向 量 并 不 重要 。 回 量 有 许多 维度 (这 里 是 两 维 )， 每 个 维度 都 有 一 个 数值 。 


= 
里 


提示 附录 B 解 释 了 Vector 接口 及 其 实现 的 一 些 细 节 ; 必要 时 参考 该 附录 可 以 更 好 地 理解 
Mahout 表 达 向 量 的 方式 。 在 我 们 的 示例 中 ， 这 些 细节 还 不 是 很 重要 。 


104 “第 7 章 聚 类 介绍 


在 后 续 各 节 中 ， 我 们 会 使 用 Mahout 来 聚 类 二 维 空间 上 的 点 。getPoints 困 数 被 用 来 将 给 定 
的 输入 点 集合 转换 为 RandomAccessSparseVector 格 式 。 一 旦 生成 了 这 些 回 量 ， 它 们 会 被 写 为 
SequenceFile 格 式 ， 以 便 Mahout 中 的 聚 类 算法 可 以 该 懂 。 这 个 过 程 在 writePointsToFile 了 加 
数 中 实现 。 


(8,9)(9,9) 
© © 
Br) 


了 了 轴 


(0, 0) x 轴 
图 7-2 在 x 平面 显示 代码 清单 7-1 中 的 输入 数据 点 


7.3.2 ”使 用 Mahout 聚 类 


一 旦 准备 好 输入 ， 就 可 以 对 数据 点 进行 聚 类 了 。 这 个 示例 中 ， 我 们 使 用 k-means 聚 类 算法 ， 
取 如 下 输入 参数 。 
口 包含 输入 癌 量 的 SequenceFile。 
口 包含 初始 聚 类 中 心 点 的 SeauenceFile。 在 本 示例 中 , 我 们 初始 化 两 个 艇 ,因此 会 有 两 个 
中 心 。 
口 所 用 的 相似 性 度量 。 这 里 我 们 使 用 EucliaeanDistanceMeasure 作 为 度量 相似 性 的 方 
法 ,本章 稍 后 也 会 讨论 其 他 的 相似 性 度量 方法 。 
D convergenceThreshold。 如 果 在 某 次 迭代 中 ， 复 中 心 的 变化 没有 超过 这 个 国 仁 ， 则 不 
再 进入 下 一 次 迭代 。 
口 迭代 次 数 。 
口 输入 文件 中 使 用 的 Vector 实 现 。 
万 事 俱 备 ， 只 差 初始 的 簇 中 心 。 要 从 9 个 点 中 生成 两 个 族 ， 你 需要 两 个 点 作为 秘 中 心 ， 如 图 
7-3 所 示 。 尺 量 让 这 两 个 点 是 k-means 算法 所 要 寻找 的 两 个 艇 中 心 的 最 佳 猿 测 。 
当然 ， 你 会 发 现 这 样 的 猜测 不 太 准 ; 它们 通常 会 活 入 其 中 一 个 禾 中 。 遗 憾 的 是 , 在 重要 的 案 
例 中 ,没有 办 法 预先 知道 复 的 位 置 。 估 计 复 中 心 的 方法 有 很 多 一 一 其 中 canopy 聚 类 算法 可 以 又 快 
又 好 地 给 出 舍 计 值 。 


7.3 Hello World: 运行 一 个 简单 的 聚 类 示例 105 


(8,9)(9,2) 
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7》 轴 


(3,3) 
ey 
| 1%2 1) 
@ ”8@ 去 一 -一 禾 1 的 初始 中 心 


(0, 0) 


区 三 
禾 0 的 初始 中 心 


图 7-3 ”指定 初始 禾 是 k-means 聚 类 中 的 重要 一 步 
即便 佑 计 的 中 心 有 误差 ，k-means 算 法 也 可 以 纠正 它 ， 在 每 次 迭代 的 最 后 都 会 计算 簇 中 所 有 
点 的 平均 中 心 ， 或 称 为 中 心 点 (centroid )。 为 了 显示 k-means 的 这 种 纠 错 性 质 , 你 可 以 选择 两 个 徘 
得 很 近 的 中 心 点 一 一 (1, 1) 和 (2, 1)。 你 也 可 以 尝试 输入 不 同 的 中 心 值 ， 来 看 一 看 k-means 是 如 何在 
各 种 情况 下 使 中 心 收 敛 的 。 
下 面 清单 中 的 代码 以 in-memory 模 式 使 用 Mahout 的 k-means， 对 平面 上 点 的 集合 进行 聚 类 。 


代码 清单 7-2 ”Hello World 聚 类 代码 


Public static final double[]{[] points = { {1, 1}, {2, 1}, {1, 2}, 
{2, 2}, {3, 3}, 18, 8}, 
{19, 8},; 18; 3}; {9, 9347s 


public static void writePointsToFile(List<Vector> pointes, 
String fileName, 
FileSsystem fs, 
Configuration Conft) throws IOException f{ 
Path path = new Path{fileName);: 


SequenceFile.Writer writer = new SequencerFile.Writerl(fs, conf, 
path, LongWritable.class, VectorWritable.class).; 

long recNum = 0; 

VectorWritable vec = new VectorWritablel(}:;: 


for (Vector point : points) { 
vec.set (point).; 
writer.append (new LongWritable (recNum++}, vec).: 


} 


writer.close(): 


} 

Public static List<Vector> getPoints (double[][] raw}) { 
Lisgt<Vector> points = new ArrayList<Vector>{): 
for (nt 1 = 0; i < raw.length; i++) 1{ 


double[] fr = rawlil]: 
Vector vec = new RandomAccessSparseVector (fr. length): 


vec.assign (fr).; 
points.add (vec}; 
} 


return points,; 


} 
a a 和 下 下 下 一 一 
Public static void main(String args[]) throws Exception { 外 定 所 要 形成 的 
簇 个 数 
Int kk = 了 
List<Vector> vectors = getPoints (points}; 


因 为 数据 创建 输入 目录 


File testData = new File('"'testdata").; 

if (ItestData.exists()) { 
testData.mkdir(!}).: 

} 

testData = new File{"'testdata/points"),; 

if {ItestData.exists{(})}) { 
testData.mkdir(); 

} 

Configquration conf = new Configuration()}); 

FileSystem fs = FileSystem.get {conf):; 

writePointsToFiléeé {vectors, 

"testdata/points/fileli", fs, conf),; 二 一 一 写 入 初始 中 心 点 


Path path = new Path("testdata/clusters/part-00000"); 
SegquenceFile.Writer writer 
= New SequenceFile.Writer! 
fs, contf, path, Text.class, Cluster.class);: 


for (nt i = 0; 1 < k; i++) { 
Vector vec = vectors.get (1}; 
Cluster cluster = new Cluster! 
vec, i, new EuclideanDistanceMeasure!()}.; 


writer.append (new Text (cluster.getIidentifier()), cluster); 

} 

writer.close!{);: 

KMeansDriver.run{(conf, new Path(l"testdata/points"), eo 
new Path("'testdata/clusters"), 运行 k-means 算法 
new Pathl(l"'ocoutput'"})}, new EuclideanDistanceMeasure()}), 


0.001, 10, true, ftalse).: 


SequencerFile.Reader reader 
= new SequenceFile.Reader (fs, 
new Path{"output/" + Cluster.CLUSTERED POINTS DIR 
+ "/pPart-m-00000"), conf)., 


IntWritable key = new IntWritable(): 
WeightedVectorWritable value = new WeightedVectorWritable!().; 


while (reader.next (key, value})}) 1 
System.out .printlnl 
value.toSstring() + " belongs to cluster " 、 
+ key.toString!()),; 读 取 输出 ， 打 印 
问 量 和 艇 ID 


reader.close{).: 
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图 7-4 的 流程 图 清晰 地 显示 了 代码 清单 7-2 所 做 的 工作 。 


利用 输入 数据 生成 向 量 


写 入 输入 目录 
运行 聚 类 作业 从 输出 目录 中 读 取 徐 


写 入 初始 复 中 心 


图 7-4 ”最 基础 的 聚 类 示例 流程 图 


7.3.3 ”分析 输出 结果 


使 用 你 习惯 的 IDE 或 从 命令 行 中 编译 并 运行 代码 清单 7-2 中 的 代码 : 确保 所 有 Mahout 依 赖 的 
ne 了 。 因 为 我 们 的 数据 集 不 大 ， 你 可 以 在 几 秒 钟 内 得 到 如 下 的 输出 结 东 :也 


1.0: [1.000，1.000] belongs to cluster 0 
1.0: [2.000, 1.000|] belongs to cluster 0 
1.0: [1.000, 2.000] belongs to cluster 0 
1.0: [2.000, 2.000|] belongs to cluster 0 
1.0: [3.000, 3.000] belongs to cluster 0 
1.0: [8.000, 8.000] belongs to cluster 1 
1.0: [3939.000, 8.000] belongs to cluster 1 
1.0: [8.000, 3.000] belongs to cluster 1 

.0: [9.000, 9.000] belongs to cluster 1 


代码 清单 7-2 用 字符 串 标 识 符 (string identifier ) 来 唯一 标记 每 个 同 量 。 这 有 助 于 你 以 后 评估 和 重 构 
个 秘 。 从 图 7-5 可 以 看 到 ， 这 个 算法 可 以 把 徐 的 中 心 从 @Q, D) 调 整 到 (8.3, 8.5) 一 一 禾 1 中 所 有 点 的 中 心 。 


》 轴 
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(0, 0) X 轴 
图 7-5 ”一 个 最 简单 的 k-means 聚 类 算法 的 输出 。 即 使 初始 的 中 心 比 较 远 ，k-means 
算法 也 能 够 基于 欧 氏 距离 测度 正确 迭代 ， 并 对 中 心 点 进行 纠正 
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在 这 个 人 简单 的 示例 中 , Mahout 将 这 些 点 快速 而 准确 地 分 到 两 个 集合 中 。 实际 场景 中 的 数据 不 
会 如 此 简单 。 对 于 包含 上 百 万 个 输入 向 量 ， 而 每 个 向 量 又 包含 上 百 万 个 维度 的 数据 ,快速 地 凤 类 
就 变 得 不 那么 轻松 , 会 出 现 质量 和 性 能 上 的 问题 。 决 定 生成 多 少 秘 、 或 者 选择 哪 种 相似 性 度量 将 
变 得 很 困难 。 此 外 ,还 需要 花 大 力气 来 柚 优 性 能 以 及 评估 族 的 质量 。 要 知道 ,实现 一 个 完美 的 肾 
类 是 一 项 永 无 止境 的 工作 。 


7.4 探究 距离 测度 


Mahout 聚 类 的 实现 是 可 以 灵活 配置 的 , 它 足 以 胜任 几乎 所 有 的 聚 类 问题 ,但 是 关键 问题 在 于 ， 
到 底 哪 种 配置 才 是 最 优 的 ? 这 里 面 的 一 个 核心 因素 是 距离 测度 的 选择 。 

在 之 前 的 示例 中 ， 我们 使 用 EuclideanDistanceMeasure 来 计算 点 和 点 之 间 的 距离 。 虽 然 
这 被 证 明 是 生成 篮 的 一 种 有 效 的 度量 手段 , 但 在 Mahout 聚 类 包 中 还 实现 了 其 他 的 相似 性 度量 。 这 
些 DistanceMeasure 类 恰 如 其 名 ， 它们 根据 各 种 对 距离 的 定义 来 计算 两 个 癌 量 之 间 的 距离 。 回 
量 之 间距 离 越 短 则 越 相 似 ， 反 之 亦 然 ， 相 似 性 和 距离 在 概念 上 是 相互 关联 的 。 


7.4.1 了 欧 氏 距离 测度 


我 们 已 经 认识 了 欧 开 距离 (Euclidean distance ), 它 是 所 有 距离 测度 中 最 简单 的 。 它 最 直观 且 
符合 我 们 通常 对 距离 的 理解 。 例 如 ， 给 定 平 面 上 的 两 个 点 ， 欧 氏 距离 测度 可 以 通过 使 用 一 个 标尺 
来 计算 出 它们 之 间 的 距离 。 数 学 上 ， 两 个 n 维 癌 量 (qi, aa 和 (Di bpp…, bn) 之 间 的 欧 氏 距离 表 
不 为 : 
(人 Wy 2 2 
d = V (a —b) +(a,—b,) 十 十 (Ga —b,) 
No. 7 


实现 这 个 度量 的 Mahout 类 为 Euc lideanDistanceMeasure,。 


7.4.2 平方 欧 氏 距离 测度 


正如 名 称 所 示 , 这 种 距离 测度 的 值 是 欧 氏 距离 的 平方 。 对 于 n 维 癌 量 (a1, qa2…, aw) 和 (bi1, b>, *…， 
b,)， 其 距离 表示 为 : 


d = (a -Db) +(a, —b,) Fa lo 一 已 小 
实现 这 个 度量 的 Mahout 类 为 SquaredEuclideanDistanceMeasure。 
7.4.3 ”曼哈顿 距离 测度 


不 同 于 欧 氏 距离 ， 在 曼哈顿 距离 测度 (Manhattan distance measure ) 中 ， 两 个 点 之 间 的 距离 
是 它们 坐标 差 的 绝对 值 之 和 。 图 7-6 比 较 了 在 x--y 平 面 上 两 个 点 的 欧 氏 距离 和 曼哈顿 距离 。 
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7 轴 


(0.0) 
8 ( 竖 哈 顿 距离 ) 


5.65 〈 欧 氏 距 离 ) 


(0, 0) 交办 
图 7-6” 欧 氏 距 离 和 曼哈顿 距离 之 间 的 区 别 。 在 (2,2) 和 (6,6) 之 间 的 欧 氏 路 
离 为 9.65， 而 曼哈顿 距离 为 8.0 
文 个 距离 测度 的 名 字 取 和 目 格 状 的 曼哈顿 街区 。 任 何 纽约 人 都 知道 ,你 不 能 直接 穿越 建筑 
从 第 2 大 道 第 2 街区 走 到 第 6 大 道 第 6 街区 。 实 际 步 行距 离 为 4 个 街区 再 加 4 个 街区 。 数 学 上 ， 两 个 7 
维 回 量 (c，， (2,"""， aj) 和 (2，， b,, 四 b,) 之 间 的 曼哈顿 距离 表示 为 : 


qd =|a -bl+la, — 四 


SE 现 这 个 度量 的 ] Mahout 类 为 Manha ttanDistanceMeasure,。 


7.4.4 余 缀 距离 测度 


余弦 距离 测度 需要 我 们 仍 将 这 些 点 视 为 从 原点 指向 它们 的 向 量 。 这些 回 量 之 间 形 成 了 一 个 来 
角 0， 如 图 7-7 所 示 。 


(0, 0) x 轴 
图 7-7 ”向 量 (2,3) 和 (4,1) 之 间 的 余弦 夹 角 (以 原点 为 顶点 ) 
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当 夹 角 较 小 时 , 这 些 回 量 都 会 指 回 大 致 相同 的 方向 , 因此 这 些 点 非常 接近 。 当 夹 角 非 党 小时， 
这 个 夹 角 的 余弦 接近 于 1， 而 随 着 角度 变 大 , 余弦 值 递减 。 余弦 距 离 公 式 用 1 减 去 余弦 值 来 得 到 一 
个 合理 的 距离 ， 这 样 0 代 表 趾 离 最 近 ， 而 值 越 大 则 距离 越 远 。 

两 个 7 维 癌 量 (ai， U2,"""， 0 和 (2， 5 b,) 之 加 的 余弦 距离 公式 为 : 


(Db Tab t+ Db,) 


a a De ) 


注意 ,这 种 距离 测度 不 考虑 两 个 向 量 的 长 度 ， 只 关注 于 从 原点 到 这 两 个 点 的 方向 。 还 需要 注 
意 余 弦 距 离 测度 的 范围 是 从 0.0( 两 个 向 量 方向 相同 ) 到 2.0( 两 个 向 量 方向 相反 )。 


实现 这 个 度量 的 Mahout 类 为 cos ineDistanceMeasure,。 


7.4.5 ” 合 本 距离 测度 


余弦 距离 测度 包 略 了 回 量 的 长 度 。 这 适用 于 某 些 数据 集 , 但 是 在 其 他 情况 下 可 能 会 导致 糟糕 
的 聚 类 绪 果 ， 因 为 向 量 的 相对 长 度 也 会 包含 有 价值 的 信息 。 

例如 ， 考 虑 三 个 向 量 A (1.0, 1.0)、B (3.0, 3.0) 和 C (3.5, 3.3)。 因 为 它们 指向 相同 的 方向 ， 任 意 
两 个 回 量 之 间 的 余弦 距离 均 为 0.0。 人 余弦 距 离 无 法 看 出 B 和 C 之 间 更 为 接近 。 欧 氏 距 离 测 度 可 以 很 
好 地 反映 出 这 种 差距 ,但 它 不 会 考虑 回 量 之 间 的 夹 角 一 一 即 它们 方 加 相同 的 事实 。 有 时 ， 你 也 许 
希望 找到 一 种 可 以 同时 表现 夹 角 和 距离 的 距离 测度 。 

合 本 距离 测度 ( Tanimoto distance measure )， 也 称 为 Jaccard 距 离 测度 ， 可 以 同时 表现 点 与 
点 之 间 的 夹 角 和 相对 距离 信息 。 两 个 7 维 癌 量 (cl, a2,…, da 和 (bi b2,…, bi) 之 则 的 谷 本 距离 测度 
公休 


(ab, + a,b, 十 … ee 
ee ta TO + +D HT +TD )-(ab +a,b,+:…+a,b,) 


实现 这 个 度量 的 Mahout 类 为 TanimotoDistanceMeasure。 


7.4.6 ”加 权 距 离 测度 


Mahout 还 提供 了 一 个 WeightedDistanceMeasure 类 ， 以 及 基于 它 的 欧 开 踊 离 和 曼 曼哈顿 中 
离 测 度 实现 。 加 权 的 距离 测度 是 Mahout 中 的 一 种 高 级 特性 ,人 允许 对 不 同 的 维度 加 权 从 而 提高 或 减 
小 某 些 维度 对 距离 测 度 值 的 ; 影 啊 。 在 WeightedDistanceMeasure 中 的 权重 需要 以 Vector 格 式 
序列 化 到 一 个 文件 中 。 

例如 ， 当 计算 x 平面 点 和 操 之 间 的 距离 时 ,假设 你 想 让 x 坐标 的 影响 是 y 坐 标的 两 倍 。 当 然 ， 
你 可 以 让 所 有 的 x 坐标 值 加 倍 。 但 要 通过 加 权 距 离 测度 的 方式 实现 ， 你 就 需要 构建 一 个 权重 
Vector, 其 第 0 个 元 素 的 值 为 2 ， 0( 用 于 x )， 第 1 个 元 素 的 值 为 1.0 (用 于 ” )。 这 会 对 不 同 距 离 测 
度 产 生 不 同 的 影响 ， 但 通 稼 会 让 距离 值 对 x 值 的 变化 更 为 敏感 


7.6 ”小 结 111 


7.5 在 简单 示例 上 使 用 各 种 距离 测度 


分 别 使 用 欧 氏 、 曼 哈 顿 、 余 苞 和 谷 本 距离 测度 来 运行 前 面 那个 最 基本 的 kmeans 聚 类 程序 ， 
选择 大 2 (生成 两 个 篮 )。 所 得 结果 如 表 7-1 所 示 。 


表 7-1 使 用 不 同 距离 测度 的 聚 类 结果 


距离 测度 迭代 次 数 艇 0 中 的 向 量 ” 族 1 中 的 向 量 
EuclideanDistanceMeasure 3 0, 1, 2, 3, 4 $5, 6, 7,8 
SquaredEuclideanDistanceMeasure 人 0, 1, 2, 3, 4 S$, 6, 7,8 
ManhattanDistanceMeasure 3 0, 1, 2, 3, 4 S$, 6, 7,8 
CosineDistanceMeasure 1 1 0, 2, 3, 4, 39, 6, 7, 8 
TanimotoDistanceMeasure 3 0, 1, 2, 3, 4 S$, 6, 7,8 


a. 它们 是 最 基本 聚 类 程序 Hello World 源 代码 中 的 向 量 名 /ID 


余弦 距离 测度 聚 类 的 结果 有 点 让 人 费解 。 在 图 7-2 中 ,你 可 以 看 到 只 有 点 (2, D) 和 x 轴 的 夹 角 大 
于 45°。 因 此 ， 聚 类 算法 将 小 于 和 等 于 45° 的 所 有 其 他 点 形成 一 个 族 。 这 并 不 是 说 余弦 距离 测度 是 
糟 糕 的 一 一 只 是 它 对 这 个 数据 集 不 适用 。 比 如 ， 在 文本 聚 类 告 领域 中 ， 它 就 表现 得 非常 出 色 。 

使 用 squaredEuclideanDistanceMeasure 增 加 了 壕 代 的 次 数 。 这 是 因为 在 使 用 这 个 度量 
时 ， 绝 对 距离 值 变 得 更 大 ， 而 算法 仍 使 用 较 小 的 convergenceThreshold 值 。 因此 ， 这 使 得 达 
到 收敛 所 需 的 迭代 数 增加 了 一 倍 。 

以 后 的 草 世 中， 我们 将 看 到 更 多 的 聚 类 方法 ,演示 它们 是 如 何 适 用 于 各 种 数据 的 ， 并 解释 如 
何 使 用 各 种 距离 测度 来 同时 获得 速度 和 质量 上 的 优化 。 


7.6 小结 


本 章 , 我 们 介绍 了 聚 类 的 思想 。 我 们 使 用 了 一 个 直观 的 方法 来 聚 类 图 书馆 的 藏书 ， 接 着 使 用 
二 维 空间 上 的 点 给 出 了 聚 类 正式 的 定义 。 我 们 创建 了 平面 上 的 一 个 很 小 的 点 集 ， 并 使 用 
EuclideanDistanceMeasure 运 行 了 一 个 简单 的 kmeans 聚 类 示例 。 

接 下 来 ,我 们 讨论 了 Mahout 中 的 各 种 距离 测度 。 有 了 它们 , 我 们 重新 运行 了 最 初 的 示例 并 比 
较 了 使 用 这 些 距 离 测度 后 的 聚 类 结果 。 

在 详细 地 研究 聚 类 算法 之 前 ,我 们 需要 花 一 些 时 间 了 解 Mahout 中 的 基本 概念 一 一 如 何 表示 数 
据 。 这 就 是 下 面 要 讲 的 内 容 。 


聚 类 数据 的 表示 


本 章 内 容 

口 将 数据 表示 为 Vector 

口 将 文本 文件 转换 为 Vector 形式 
口 归 一 化 数据 表示 


为 了 得 到 好 的 聚 类 绪 末 ， 你 就 需要 大 致 了 解 问 量化 技术 : 即 把 对 象 表示 为 Vector 的 过 程 。 
Vector 是 一 种 非常 简单 的 数据 表示 方式 ， 它 可 以 帮助 聚 类 算法 理解 对 象 ， 并 计算 它 与 其 他 对 象 
之 间 的 相似 性 。 本 草 探讨 各 种 把 不 同类 型 对 和 象 转换 为 Vvector 的 方法 。 

在 上 一 章 , 你 已 经 对 聚 类 有 所 了 解 。 对 书籍 的 聚 类 是 基于 它们 在 单词 上 的 相似 性 ， 对 二 维 平 
面 中 点 的 聚 类 是 基于 它们 之 间 的 距离 。 在 现实 中 ， 聚 类 可 以 作用 于 任何 类 型 的 对 象 ， 只 要 你 能 区 
分 出 相似 点 和 不 同 点 即 可 。 对 图 像 的 聚 类 可 基于 颜色 、 形 状 ， 或 同时 基于 二 者 。 而 聚 类 照片 时 ， 
你 也 许 会 试图 将 动物 照片 与 人 的 照片 区 分 开 。 你 甚至 可 以 通过 动物 的 个 体 平均 大 小 、 重 量 和 腿 的 
个 数 自 动 地 发 现 不 同 徐 ， 从 而 对 它们 的 种 群 进行 肾 类 。 

作为 人 类 ,我 们 可 以 聚 类 这 些 对 象 是 因为 我 们 理解 它们 ， 而 我 们 “就 是 知道 ”什么 是 相似 的 
而 什么 不 是 。 不 符 的 是 ， 计 算 机 没有 这 种 百 沉 ,任何 通过 算法 的 聚 类 都 要 从 对 象 的 表示 开始 ,这 
样 我 们 才能 让 计算 机 可 以 读 懂 它们 。 

依据 可 衡量 的 特征 或 属性 来 考察 对 象 已 被 证 明 是 相当 实用 和 灵活 的 。 例 如, 个 体 大 小 和 重量 
是 两 个 显 闭 的 特征 ， 它 们 可 以 帮助 我 们 理解 动物 相似 性 的 概念 。 每 个 对 象 (动物 ) 在 这 些 属性 上 
都 会 有 对 应 的 数值 。 

我 们 希望 把 对 象 描述 为 值 的 集合 ,每 个 对 象 都 关联 到 一 个 显 闭 特征 集合 ,或 是 一 个 维度 集 
合 一 一 这 听 起 来 是 不 是 很 熟悉 ?我 们 又 在 描述 一 个 同 量 。 虽然 你 习惯 于 将 问 量 视 为 空间 中 的 季 
头 或 点 ， 但 它们 其 实 就 是 有 序数 列 。 因 此 ， 它 们 才 可 以 很 轻松 地 表示 对 象 。 

在 上 一 草 中 , 我 们 已 经 讨论 了 如 何 对 回 量 进行 聚 类 。 但 是 , 我 们 怎样 才能 在 Mahout 中 表示 问 
量 ? 在 此 之 前 , 我 们 又 怎样 由 对 象 得 到 回 量 ?” 这 正 是 本 草 所 讨论 的 内 容 。 我 们 继续 从 数学 概念 出 
发 讨论 回 量 的 由 来 。 我 们 将 解释 如 何 把 要 聚 类 的 数据 转换 成 回 量 的 形式 , 并 通过 封装 使 之 能 够 为 
Mahout 所 理解 。 我 们 还 将 深入 讨论 文本 数据 以 及 一 些 重要 的 概念 ， 如 加 权 ( weighting ) 和 归 一 化 
(normalization )。 最 后 ,我们 基于 所 有 这 些 概念 和 癌 量 化 的 路 透 社 新 闻 数 据 集 来 使 用 Mahout 库 。 
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8.1 回 量 可 视 化 


你 可 能 在 许多 场景 中 见 过 问 量 这 个 词 。 在 物理 学 中 , 一 个 回 量 代表 一 个 力 的 大 小 和 方向 , 或 
者 一 个 移动 物体 ( 如 一 辆 汽车 ) 的 速度 。 在 数学 中 ,一 个 回 量 只 是 空间 中 的 一 个 点 。 这 两 种 表现 
形式 在 概念 上 是 非常 相近 的 。 

在 二 维 空间 ， 癌 量 被 表示 为 一 个 有 序数 列 ， 每 个 维度 有 一 个 值 ， 如 (4, 3)。 图 8-1 给 出 了 这 些 
表现 形式 。 在 处 理 二 维 问 题 时 ， 我们 常常 将 第 一 个 维度 称 为 x<， 而 把 第 二 个 维度 称 为 >»， 但 这 对 
Mahout 而 言 并 不 重要 。 对 我 们 而 言 ， 一 个 癌 量 可 以 有 2 个 、3 个 或 10 000 个 维度 。 第 一 个 是 维度 0， 
下 一 个 是 维度 1， 依 此 类 推 。 


图 8-1 在 物理 学 中 ， 一 个 回 量 可 以 看 做 是 一 条 射线 ， 有 起 点 、 方 向 和 长 度 ， 并 且 表 示 了 大 
小 ， 如 速度 和 加 速度 等 。 在 几何 或 空间 上 ， 一 个 向 量 只 是 由 每 个 维度 的 权重 来 表示 
的 一 个 点 。 在 默认 情况 下 ， 问 量 的 方向 和 大 小 由 一 条 从 原点 (0, 0) 出 发 的 射线 来 表示 


8.1.1 将 数据 转换 为 向 量 


在 Mahout 中 ， 回 量 被 实现 为 三 个 不 同 的 类 、 每 个 类 都 是 针对 不 同 场景 优化 的 : DenmSsevVecftLeTz、 
RandomAccessSparseVector 和 和 SequentialAccessSparseVector。 

口 DensevVector 可 被 视 为 一 个 double 型 的 数组 ， 其 大 小 为 数据 中 的 特征 个 数 。 因 为 不 管 数 

组 的 元 素 值 是 不 是 0,， 数 组 中 所 有 元 素 都 被 预先 分 配 了 空间 。 我 们 称 之 为 密集 的 (dense )。 

国 RandomAccessSparseVector 被 实现 为 integer 型 和 double 型 之 则 的 一 个 HashMap 
只 有 非 零 元 素 被 分配 空间 。 因 此 ， 这 类 癌 量 称 为 稀疏 问 量 。 

口 SequentialAccessSparseVector 实 现 为 两 个 并 列 的 数组 ， 一 个 是 integer 刑 ， 男 一 
个 是 aouble 型 。 其 中 只 保留 了 非 零 元 素 。 与 面 问 随机 访问 的 RandomaAccessSparse- 
Vector 不 同 ， 它 是 为 顺序 旋 取 而 优化 的 。 

附录 B 清 晰 地 解释 了 它们 之 间 的 区 别 。 

这 三 种 实现 允许 你 灵活 地 选择 向 量 类 , 使 这 些 类 的 性 能 特性 能 够 适应 数据 特质 、 算 法 和 数据 
访问 方式 。 具 体 选 择 哪 种 实现 依赖 于 算法 。 如 果 算 法 要 对 癌 量 的 值 做 许多 随机 插入 和 更 新 ， 就 适 
合 使 用 像 Dens eVector 或 RandomAccessSpars EVeCc tor 这 样 支持 快速 随机 访问 的 实现 。 另 一 方 
面 ， 而 对 于 像 Kk-means 聚 类 这 样 反 复 计算 向 量 大 小 的 算法 ， SequentialAccessSparseVector 
实现 的 执行 速度 就 会 比 RandomAccessSparseVector 更 快 。 


(ff 
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为 了 肾 类 对 象 ， 必 须 首 先 把 它们 转换 为 咎 量 (将 它们 向 量化 )。 每 种 类 型 的 数据 都 有 独特 的 
回 量 化 过 程 , 但 因为 本 书 在 这 里 讲述 的 是 聚 类 ,我 们 只 谈论 聚 类 的 数据 转换 。 我 们 和 希望 读者 此 时 
已 经 可 以 容易 接受 把 对 象 视 为 菜 种 n 维 癌 量 的 方法 。 前 和 完 ， 对 和 象 逢 要 被 转换 为 一 个 向 量 ， 其 维度 
数 与 对 和 象 的 特征 个 数 相 同 。 让 我 们 用 一 个 示例 来 说 明 。 

假设 你 想 对 一 堆 平 来 进行 肾 类 。 它 们 有 不 同 的 形状 、 大 小 和 颜色 ( 红色、 黄色 和 绿色 )， 如 
图 8-2 所 示 。 首 和 完 ， 你 需要 定义 一 种 距离 测度 方法 来 说 明 两 个 痒 采 是 相似 的 ， 只 要 它们 仪 在 少数 
特征 上 有 不 同 ， 且 差别 较 少 。 相 比 于 一 个 大 的 、 卵 型 的 、 绿 色 的 平 果 ,一 个 小 的 、 圆 的 、 绿 色 的 
平 末 与 一 个 小 的 、 圆 的 、 红 色 的 乎 末 更 相似 。 


Y 
CO 


图 8-2 ”不 同 大 小 和 颜色 的 平 采 需要 转换 成 恰当 的 回 量 形式 。 诀 守 在 于 找到 如 何 将 笠 末 
的 不 同 特征 转化 为 十 进 制 数值 的 方法 


在 向 量化 的 过 程 中 , 首先 需要 将 特征 对 应 到 维度 上 。 让 我 们 将 重量 ( weight ) 作 为 特征 ( 维 
度 ) 0、 颜 色 (color ) 为 1 而 大 小 ( size ) 为 2。 描 述 一 个 小 的 、 圆 的 、 红 色 的 苹果 的 向 量 可 表 
示 为 : 

人 
但 这 个 同 量 还 没有 数值 ， 而 这 又 是 需要 的 。 

对 于 维度 0， 你 需要 将 重量 表示 为 数字 。 这 可 以 简单 地 用 克 ( gram ) 或 千克 (kilogram ) 来 
测量 。 大 小 〈 维 度 2 ) 未 必 能 够 等 价 于 重量 。 我 们 都 知道 ， 绿 色 的 苹果 可 能 由 于 是 新 人 鲜 的 ， 而 比 
红 苹 果 的 密度 更 高 。 此 外 还 可 以 使 用 密度 作为 维度 ， 只 要 我 们 有 工具 可 以 测量 它 。 另 一 方面 ， 
大 小 可 被 置 为 人 为 观察 到 的 数字 : 小 苹果 大 小 的 值 可 以 为 1、 中 型 苹果 的 大 小 为 2， 而 大 苹果 的 
大 小 为 3。 

对 于 颜色 ( 维度 1 ) 该 怎么 办 呢 ? 你 可 以 为 颜色 分 配 任意 的 数字 ， 比 如 红色 =0.0， 绿 色 =1.0， 
黄色 =2.0。 这 是 一 种 简单 直观 的 表示 方法 ; 它 适 用 于 很 多 情况 ， 但 它 没 有 反映 出 这 样 一 个 事实 ， 
即 在 可 见 光 谱 中 ,黄色 是 介 于 红色 和 绿色 之 间 的 颜色 。 我 们 可 以 通过 更 改 映 射 关 系 来 弥补 这 种 不 
足 ， 但 也 许 更 好 的 办 法 是 直接 用 该 颜色 的 波长 ( 400~650 nm )。 这 样 颜色 就 映射 为 一 个 有 意义 和 
客观 的 维度 值 。 

用 这 些 度 量 值 作 为 苹果 的 属性 ， 就 可 以 为 这 些 苹 果 生 成 向量 ， 如 表 8-1 所 示 。 
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表 8-1 不 同 重量 、 大 小 和 颜色 的 芋 果 数据 集 转换 为 向 量 


二 重量 (公斤 ) 颜色 大 小 是 
平 呆 同 时 
(0) (1) (2) 
小 、 圆 、 绿 色 0.11 510 1 [0.11, 510, 1] 
大 、 椭 圆 、 红 色 0.23 650 3 [0.23, 650, 3] 
小 、 细 长 、 红 色 0.09 630 1 [0.09, 630, 1] 
大 、 圆 、 黄 色 0.25 590 3 [0.25, 590, 3] 
中 、 椭 圆 、 绿 色 0.18 520 2 [0.18, 520, 2] 


如 打 你 不 想 基于 颜色 的 相似 度 对 乎 采 进 行 聚 类 , 你 还 可 以 把 颜色 对 应 到 不 同 的 维度 上 。 这 就 
是 说 ， 红 色 为 维度 1， 绿 色 为 维度 3 和 黄色 为 维度 4。 如 果 笠 采 是 红色 的 ， 红 色 为 值 1 和 其 他 为 0。 
然后 可 以 用 稀 蔚 的 格式 存储 这 些 回 量 ,， 而 距离 测度 只 会 考 愿 这些 维 度 中 非 零 值 的 存在 ,并 将 这 些 
平 果 中 相同 闫 色 的 聚 类 在 一 起 。 

我 们 所 选择 的 这 种 维度 值 映射 方法 有 一 个 洲 在 的 问题 ， 即 维度 1 中 的 值 比 其 他 维度 大 得 多 。 
如 条 我 们 采用 一 个 简单 的 基于 距离 的 度量 标准 来 确定 这 些 回 量 之 间 的 相似 性 , 颜色 差异 将 主导 最 
终 的 结果 。 比 如 ， 一 个 相对 较 小 的 10 nm 的 色差 会 相当 于 10 倍 大 的 形状 差异 ， 而 在 不 同 维度 上 加 
权 可 以 解决 这 个 问题 。 

权重 的 重要 性 将 放 在 8.2 节 讨论 , 那 时 你 会 从 文本 文档 中 生成 问 量 。 在 一 个 文档 中 , 并非 所 
有 单词 都 对 文档 有 相同 的 作用 。 权 重 技术 可 以 帮助 你 强化 更 重要 的 词 ， 而 弱化 那些 相对 并 不 重 
要 的 词 。 


8.1.2 ”准备 Mahout 所 用 的 向 量 


有 了 将 竺 采编 码 为 问 量 的 方法 之 后 , 我 们 再 看 看 如 何 准 备 Mahout 算 法 所 用 的 问 量 。 首先 , 实 
例 化 一 个 Vector 的 实现 , 并 把 每 个 对 象 的 值 臣 充 进去 ; 再 将 所 有 Vector 写 人 一 个 SequenceFile 
格式 的 文件 ,使 其 可 被 Mahout 算 法 读 取 。sequenceFile 是 Hadoop 库 中 的 一 种 文件 格式 ， 它 由 一 
个 键 - 值 对 序列 组 成 。 其 中 ， 键 (key ) 有 顷 实 现 为 Hadoop 中 的 Writablecomparable， 值 (value ) 
须 实 现 为 Wzitable。 在 Hadoop 中 它们 等 效 于 Java 中 的 Comparable 和 Serializable 接 口 。 

例如 ， 我 们 可 以 使 用 回 量 的 名 字 或 描述 作为 键 ， 而 回 量 本 身 作 为 仁 。Mahout 的 Vector 类 没 
有 实现 Writable 接 口 ， 以 避免 它们 和 Hadoop 直 接 耦 合 ， 但 可 以 用 vectorwritable 类 来 封装 
一 个 vector 并 使 之 为 Writable。 即 Mahout 中 的 向 量 可 以 使 用 vectorWritable 类 写 人 
SequenceFile， 如 下 所 示 。 


* < 主 y ls = Jaa 
代码 清单 8-1 为 各 种 平 果 生 成 辐 量 
public static void main(String args[]) throws Exception { 
List<NamedVector> apples = new ArrayList<NamedVector>{(); 


NamedVector apple; 
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apple = new NamedVector! 
new DenseVector(new doublel[l] {0.11, S510, 1}), 将 名 字 与 向 量 关联 
"Small round green apple"); 
apples.add (apple).; 
apple = new NamedVector!t 
new DenseVector(new double[] {0.23, 650, 3}}), 
"Large oval red apple"); 
apples.add l(apple).; 
apple = new NamedVector! 
new DenseVector{(new double[] {0.09, 630, 1}}), 
"Small elongated red apple'"):; 
apples.add (apple).: 
apple = new NamedVector! 
new DenseVector{(new double[] {0.25, S590, 3}}), 
"Large round yellow apple").; 
apples.add (apple).: 
apple = new NamedVector! 
new DenseVector(lnew doublel[l] {0.18, 520, 21}), 
"Medium oval green apbp1e" ) :; 


Configuration conf = new Configuration!{(}); 

FileSystem fs = FileSystem.get (conf).,; 

Path path = new Path("appledata/apples'"): 

SequenceFile.Writer writer = new SegquenceFile.Writer (fs, conf, 
path, Text.class, VectorWritable.class).: 

VectorWritable vec = new VectorWritable().;: 

for (NamedVector vector : apples) { 


vec.set (vector),; 序列 化 向 量 数 据 


writer.append (new Text (vector.getName (})}})}, vec),; 


} 


writer.closel(): 


SequenceFile.Reader reader = new SeaquenceFile.Reader (fs, 


new Pathl("appledata/apples"), conf)}); 
Text key = new Text{}).; 
VectorWritable value = new VectorWritablet{)},; ee 
, | 反 序列 化 向 量 数 所 
while (reader.next (key, value}) { 


System.out.println (key.toSstring() + " " 
+ Vvalue.get().asFormatString()); 


} 


reader.closel(),; 


) 
选择 一 个 对 象 的 特征 并 把 它们 映射 到 数字 的 过 程 称 为 特征 选择 ( feature selection ), 将 这 些 特 
征 编码 为 器 量 的 过 程 称 为 向 量化 (vectorization )。 
基于 对 特征 值 的 合理 近似 , 任何 类 型 的 对 和 象 都 可 以 被 转换 为 回 量 形式 ,就 像 我 们 处 理 人 苹果 的 
方法 一 样 。 现 在 让 我 们 向 量化 一 个 特别 有 趣 的 对 象 类 型 ， 文本 文档 。 


8.2 ”将 文本 文档 表示 为 癌 量 


数字 形式 的 文本 内 容 呈 爆炸 式 增长 。 仅 谷歌 搜索 引擎 就 索引 了 超过 200 亿 个 Web 文 档 。 这 还 
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只 是 可 以 被 公开 抓 取 的 信息 的 一 部 分 。 文 本 数据 ( 公共 的 和 私人 的 ) 的 大 小 可 能 超越 1 个 PB: 就 
是 1 后 面 跟 15 个 0。 这 对 眼 类 和 分 类 等 机 融 学 习 算 法 来 说 是 一 个 巨大 的 机 会 ， 即 在 非 结 构 化 的 世界 
中 找 出 一 些 结构 和 含义 ， 而 要 做 到 这 一 点 ， 首 先 需 要 学 习 文 本 癌 量 化 这 门 艺 术 。 

VSM (Vector Space Model， 问 量 空间 模型 ) 是 问 量 化 文本 文档 的 第 见方 法 。 首 先 ， 考 虑 由 
一 系列 被 回 量 化 的 文档 中 全 部 单词 组 成 的 集合 。 这 个 集合 中 的 单词 至 少 在 任意 一 个 文件 中 出 现 过 
一 次 。 假 定 每 个 单词 被 分 配 一 个 编号 ， 这 个 编写 就 是 它 在 文档 问 量 中 所 拥有 的 维度 。 

例如 ,如 有 果 单 词 horse 被 分 配 到 回 量 的 第 39 905 个 索引 位 置 , 单词 horse 就 对 应 文档 癌 量 的 第 39 
905 个 维度 。 于 是 ， 文 档 的 回 量 形式 仅仅 包含 每 个 单词 在 文档 中 出 现 的 次 数 ， 并 且 这 个 数值 会 被 
依次 存储 在 各 个 单词 所 在 的 维度 上 。 这 些 文档 回 量 的 维度 会 非常 庞大 。 维 度 的 最 大 可 能 数目 就 是 
问 量 的 基数 ( cardinality )。 因 为 可 能 出 现 的 单词 或 词 条 (token ) 的 个 数 无 比 巨 大 ,文本 回 量 通 浓 
币 认 为 具有 无 限 的 维度 。 

对 于 一 个 单词 而 言 ， 问 量 维度 上 的 值 通 党 是 文档 中 单词 出 现 的 次 数 。 这 称 为 TF ( Term 
Frequency， 词 频 ) 权重 。 请 注意 ， 这 些 值 也 被 称 为 这 个 字段 上 的 权重 ( weight )。 你 可 以 看 到 有 
些 参考 文献 使 用 了 加 权 ( weighting ) 这 一 说 法 ,而 不 是 值 。 单 篇 文档 中 出 现 的 独立 单词 数目 通常 
比 在 整个 文档 集合 中 的 独立 单词 数目 要 少 。 其 结果 就 是 ， 这 些 高 维度 的 文档 癌 量 相当 稀 玖 。 

在 聚 类 中 ， 我 们 经 背 基 于 距离 测度 来 寻找 两 个 文档 之 间 的 相似 性 。 在 典型 的 英文 文档 中 ， 
最 频繁 的 词 是 a、an、the、who、what、are、is、wWas 和 等。 这 类 词 称 为 停 用 词 ( stopword )。 无 论 
你 使 用 任何 距离 测度 计算 两 个 文档 癌 量 之 间 的 距离 ,你 都 会 看 到 距离 值 会 被 这 些 频繁 词 的 权重 
所 左右 。 

这 与 之 前 的 苹果 与 颜色 问题 是 一 样 的 。 这 种 效果 不 是 我 们 想 要 的 ,因为 两 个 文档 相似 的 主要 
原因 是 均 出 现 了 a、an 和 the 这 样 的 词 。 任 下 觉 ， 我 们 认为 两 份 相似 的 文件 应 该 谈论 相似 的 主题 ， 
而 标记 一 个 主题 的 词 通常 是 不 常见 的 词语 ， 像 enzyme 、legislation 、Jordan 等 。 这 使 得 简单 基于 词 
频 的 权重 并 不 适用 于 聚 类 ， 也 不 适用 于 其 他 需要 计算 文档 相似 度 的 应 用 。 

秆 运 的 是 , 我 们 可 以 使 用 非常 简单 但 很 有 效 的 技巧 来 修复 这 些 缺 陷 ， 从 而 改变 加 权 方 法 ,我 
们 将 在 下 面 对 此 进行 讨论 。 


8.2.1 使 用 TF-IDF 改 进 加 权 


TF-IDF ( Term Frequency-Inverse Document Frequency， 词 频 - 逆 文 档 频率 ) 加 权 被 广泛 用 于 
改进 简单 的 词 频 加 权 。 改 进 之 处 在 于 增加 了 逆 文 档 频 认 (IDF ) 部 分 ， 而 不 是 简单 地 使 用 词 频 作 
为 回 量 中 的 仁 ， 这 个 值 会 被 乘 以 单词 的 文档 频 座 的 倒数 。 就 是 说 ， 如 采 一 个 单词 在 所 有 文档 中 被 
使 用 的 越 频 繁 ， 那 它 对 癌 量 中 的 值 的 作用 就 会 被 抵消 得 越 多 。 

为 了 解释 这 一 点 ， 我 们 假设 一 个 文档 中 单词 wi, w2…, wi 的 频率 为 ,有 p,…, 有 。 单 词 w 的 词 频 
(TF; ) 为 频 这 fi。 

为 了 计算 逆 文 档 频 识 ， 先 计算 每 个 单词 的 文档 频 认 (DF )。 文 档 频 率 是 有 这 个 单词 出 现 的 文 
档 个 数 。 单词 在 文档 中 出 现 的 次 数 并 不 计 入 文档 频率 。 那么 , 一 个 单词 wi 的 逆 文 档 频 率 或 IDF 为 : 
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IDF, oo 
DE 
如 果 一 个 单词 在 文档 集合 中 频繁 出 现 ， 则 其 DF 值 大 而 IDF 值 小 ; 这 个 IDF 值 会 很 小 而 使 乘积 
后 所 得 的 权重 值 过 小 。 在 这 种 情况 下 ， 最 好 乘 以 一 个 常数 来 归 一 化 IDF 值 。 通 常 它 被 乘 以 文档 个 
数 (NN)， 所 以 IDF 的 公式 为 : 


LDPE 二 DN 
DF 


因此 ， 在 文档 向 量 中 单词 w, 的 权重 到 为 : 
W. = TE :IDF a 
DF 


上 述 公式 中 的 IDF 值 仍 不 理想 ， 因 为 它 掩 盖 了 在 最 终 的 单词 权重 中 TF 的 影响 。 为 了 解决 这 个 
问题 ， 通 并 的 做 法 是 使 用 IDF 值 的 对 数 : 


N 
IDF =log— 
‘logTF 
因此 ， 对 于 单词 w;，TF-IDF 权 重 克 成 为 : 
N 


W. = TF .log—— 
DFE, 


也 就 是 说 ， 文 档 向 量 会 把 这 个 值 放 在 单词 所 对 应 的 维度 上 。 这 就 是 经 典 的 TF-IDF 权 重 。 停 
用 词 的 权重 小 , 而 罕见 的 词 的 权重 大 。 对 重要 的 单词 或 主题 词 来 说 , 通常 有 一 个 很 大 的 TF 值 和 比 
较 大 的 IDF 值 ， 所 以 它们 的 乘积 将 成 为 更 大 的 值 ， 从 而 让 这 些 词 在 所 生成 的 回 量 中 更 加 重要 。 

向 量 空间 模型 (VSM ) 有 一 个 基本 假设 ,， 即 单词 作为 维度 存在 ， 因 此 是 相互 正 交 的 。 换 句 话 
说 ，VSM 假 定单 词 的 出 现 是 相互 独立 的 ,等同 于 点 的 x 坐 标 完全 独立 于 点 的 ?坐标 。 赁 直觉 就 知道 
这 种 假设 在 许多 情况 下 都 是 错误 的 。 例 如 ，Cola 这 个 词 与 Coca 同 时 出 现 的 概率 会 更 高 ， 所 以 这 些 
单词 并 非 完 全 独立 的 。 因 此 ， 有 一 些 其 他 的 模型 考虑 了 单词 的 依赖 关系 。 

其 中 一 个 广为人知 的 技术 是 LSI ( Latent Semantic Indexing， 洪 在 语义 索引 )， 它 检测 可 归并 
的 维度 并 将 它们 合并 成 一 个 。 由 于 维度 减少 了 ， 聚 类 计算 速度 会 更 快 。 聚 类 质量 也 随 之 改善 ， 因 
为 现在 我 们 会 有 一 个 非常 好 的 属性 能 够 出 色 地 对 文档 对 象 进行 分 组 。 

在 本 书写 作 的 时 候 ，Mahout 尚 未 实现 LSI， 但 TF-IDF 已 被 证 明 即 使 在 独立 性 假设 条 件 下 也 可 
以 出 色 地 工作 。Mahout 目 前 为 单词 依赖 问题 提供 了 一 个 解决 方案 ， 即 通过 使 用 一 种 称 为 搭配 
( collocation ) 或 n-gram 生成 的 方法 ， 下 面 我 们 来 看 一 下 这 个 方法 。 


8.2.2 ”通过 n-gram 搭配 词 考察 单词 的 依赖 性 


一 个 句子 中 的 一 组 单词 称 为 一 个 n-gram。 一 个 单词 可 称 为 unigram， 而 像 Coca Cola 这 样 的 两 
个 单词 可 视 为 一 个 单位 ， 并 称 为 bigram。 三 个 及 以 上 单词 的 组 合 可 称 为 trigram、4-gram、5-gram 
等 。 经 典 的 TF-IDF 权 重 假定 单词 的 出 现 是 独立 于 其 他 单词 的 , 用 这 种 方法 创建 的 向 量 通 第 缺乏 识 
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别 文档 关键 特征 的 能 力 ， 因 为 这 些 特 征 可 能 是 有 依赖 关系 的 。 

为 了 元 服 这 个 问题 ，Mahout 实 现 的 技术 能 够 识别 出 那些 共 现 概率 异常 高 的 单词 的 组 合 ， 如 
Martin Luther King 1 或 Coca Cola。 在 创建 问 量 时 ， 你 可 以 不 再 把 维度 映射 到 单个 词 (unigram )， 
而 是 同样 简单 地 将 其 映射 到 bigram- 一 或 同时 使 用 两 种 映射 方法 。 于 是 ，TF-IDF 承 可 以 像 之 前 一 
样 地 发 挥 作用 。 

从 一 个 由 多 个 单词 组 成 的 句子 中 ， 你 可 以 通过 选择 n 个 连续 的 单词 来 生成 所 有 的 n-gram。 这 
个 练习 将 生成 许多 n-gram， 其 中 大 部 分 并 不 是 有 意义 的 。 例如， 从 旬 子 “It was the best of times, it 
was the worst of times,” 我 们 可 以 生成 以 下 的 bigram: 


It was 


was the 
the best 
best of 
of times 
times 1t 
lt Was 
was the 
the worst 
worst of 
of times 

其 中 有 些 组 合 很 好 , 可 用 于 生成 文档 向 量 (“the best,”“the worst”), 但 有 些 却 不 够 好 (“was 
the”)。 如 果 你 将 一 个 文档 中 的 unigram 和 bigram 人 合并， 并 使 用 TF-IDF 来 生成 权重 ， 结 果 就 会 让 许 
多 坚 无 意义 的 bigram 占 有 较 大 的 权重 ， 因 为 它们 有 较 大 的 IDF。 这 是 极 不 可 取 的 。 

为 了 解决 这 个 问题 ，Mahout 利 用 一 种 称 为 对 数 似 然 ( log-likelihood ) 的 测试 方法 来 考察 
n-gram, 从 而 确定 两 个 字 在 一 起 出 现 到 底 是 偶然 发 生 的 ,还 是 因为 它们 形成 了 一 个 有 意义 的 单元 。 
我 们 选择 最 有 意义 的 ， 而 排除 最 无 意义 的 。 在 剩余 的 n-gram 上 就 可 以 应 用 TF-IDF 加 权 策 略 并 生成 
问 量 。 如 此 ， 在 TF-IDEF 加 权 中 就 可 以 更 合理 地 考量 像 Coca Cola 这 样 有 意义 的 bigram。 

在 Mahout 中 ， 使 用 DictionaryVectori zer 类 将 文本 文档 通过 TF-IDF 加 权 和 n-gram 搭 
配 词 转换 为 问 量 。 在 下 一 下， 你 将 看 到 如 何 从 一 个 包含 文件 的 目录 开始 ， 来 创建 TF-IDF 加 权 


回 量 。 
8.3 ”从 文档 中 生成 向 量 


我 们 现在 考察 两 个 从 文本 文档 生成 器 量 的 重要 工具 。 第 一 个 是 SequenceFilesFrom 
Directory 类 , 它 将 日 录 结 构 下 的 文本 文档 转换 成 以 SequenceFile 格 式 表示 的 中 间 文 件 。 第 二 
个 是 sparseVectorsFromSequenceFiles 类 ， 它 使 用 基于 n-gram 的 TF 或 TF-IDF 加 权 将 


SequenceFEile 格 式 的 文本 文档 转换 为 回 量 。sequenceFile 格 式 的 中 间 文 件 以 文档 ID 为 键 ; 以 
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文档 的 文本 内 容 为 值 。 我 们 从 一 个 文本 文档 目录 开始 ,其 中 每 个 文件 都 包含 一 个 完整 的 文档 ,之 
后 ， 就 可 以 使 用 这 些 类 把 文档 转换 到 癌 量 。 

在 这 个 例子 中 , 我 们 使 用 Reuters-21578 新 闻 数 据 集 "。 它 在 机 器 学 习 研 究 领 域 中 被 广泛 使 用 。 
这 些 数据 的 收集 和 标记 最 初 是 由 卡 内 基 集 团 〈Carnegie Group ) 和 路 透 社 (Reuters ) 在 开发 
CONSTRUE 文 本 分 类 系统 的 过 程 中 完成 的 。Reuters-21578 数 据 集 分 为 22 个 文件 , 除 最 后 一 个 文件 
(reut2-021.sgm ) 只 包含 578 篇 文档 之 外 ， 其 余 每 个 文件 均 包 含 1000 篇 文档 。 

这 些 文件 为 SGML 格 式 ， 类 似 于 XML。 我 们 可 以 为 SGML 文 件 创建 一 个 解析 右 ， 把 文档 ID 和 
文档 文本 号 和 人 SequencerFi les 中 ， 并 使 用 SparseVectorsFromSequenceF1 les 将 它们 转换 为 
向 量 。 但 更 简便 的 方法 是 重用 Lucene benchmark 的 JAR 文 件 中 给 定 的 Reuters 解 析 右 。 因 为 它 就 在 
Mahout 的 包 中 ， 你 只 需 到 Mahout 源 代码 树 的 examples/directory 下 运行 org .apache.1lucene. 
benchmark .utils.ExtractReuters 类 即 可 。 

在 此 之 前 ,从 网 站 上 下 载 Reuters 数 据 集 ,并 将 其 解压 到 examples/ 下 的 reuters/ 目 录 中 。 如 下 所 
示 ， 在 examples 日 录 中 运行 Reuters 的 解压 代码 : 


mvn -e -dq GXeC : ] 已 VB 
-Dexec.mainClass='"org.apache.lucene.benchmark.utils.ExtractReuters" 
-Dexec.args="reuters/ reuters-extracted/' 


在 解压 后 的 日 录 中 运行 SequenceFileFromDirectory 类 。 你 可 以 在 Mahout 的 根 目录 下 
使 用 启动 需 (launcher ) 脚本 完成 相同 的 工作 : 


bin/mahout seqdirectory -~c UTF-8 
-1 examples/reuters-extracted/ -oo reuters-segqfiles 


提示 ”你 也 许 需要 设置 JAVA HOME 环 境 变 量 以 运行 这 个 启动 器 脚本 


这 会 把 Reuters 的 文 草 转换 为 SequenceFile 格 式 。 现 在 只 差 一 步 就 可 以 将 数据 转换 为 回 量 。 
为 了 实现 这 一 点 ， 使 用 Mahout 的 局 动 器 脚本 运行 SparseVectorsEromSsedquenceFiles 类 。 


bin/mahout seq2sparse -1 reuters-seqfiles/ -oO reuters-vectors ~ow 


提示 在 Mahout 中 ,使 用 -ow 标志 表示 是 否 要 和 零 盖 输出 文件 夹 。 因 为 Mahout 处 理 的 数据 集 庞 大 ， 
每 个 算法 都 需要 花 不 少时 间 来 生成 结果 。 这 个 标志 会 防止 意外 删除 需要 花费 数 小 时 才能 
生成 的 输出 。 


Mahout 启 动 带 脚本 中 Hseq2 sparse 合 令 从 sequenceFi le 中 读 取 Reuters 的 数据 并 将 
基于 词典 的 癌 量化 程序 所 生成 的 癌 量 写 和 人 输出 目录 中 ， 该 命令 所 用 的 默认 选项 在 表 8-2 中 简要 
列 出 | 


GD Reuters-21578 测 试 数据 集 可 在 http:/www.daviddlewis.com/resources/testcollections/reuters21578/ 中 找到 ,直接 的 下 载 
链接 为 http://www.daviddlewis.com/resources/testcollections/reuters21578/reuters21578.tar.gz。 


选 项 


和 窗 壮 ( bool ) 


Lucene 分 析 需 
名 ( gtring’) 


块 大 小 (int ) 


权重 

( String ) 
最 小 文 持 度 
(Cint ) 

最 小 文档 频率 
(int ) 

最 大 文档 频率 


(int ) 


n-gram 大 小 
(int ) 

最 小 对 数 似 然 
比 (LLR, 
float ) 


归 一 化 
( float ) 
reducer 个 数 


( int) 


生成 顺序 访问 
的 稀 玖 问 量 
( bool ) 


8.3 ”从 文档 中 生成 向 量 


121 


表 8-2 Mahout 基 于 词典 的 向 量化 程序 所 用 的 重要 标志 及 其 默认 值 


标 志 


-Chunk 


一 W 七 


-ImdQ 


—ml] 


-nr 


-Seq 


描述 
如 果 该 标志 被 设置 , 则 输出 目录 被 覆盖 。 否 则 ， 当 输出 目 
录 不 存在 时 创建 该 目录 , 而 当 输 出 目录 存在 时 , 该 作业 失 
败 并 报错 。 默 认为 不 设置 
所 用 分 析 器 的 类 名 


以 MB 为 单位 的 块 大 小 。 对 于 大 的 文档 集合 ( GB 或 TB 级 )， 
你 在 向 量化 时 无 法 将 全 部 的 词典 装 入 内 存 , 只 有 将 词典 分 
为 特定 大 小 的 块 , 用 多 个 步骤 来 执行 向 量化 过 程 。 建 议 你 
将 这 个 块 大 小 保持 在 Hadoop 子 节点 上 Java 堆 大 小 的 80%， 

以 避免 癌 量 化 程序 受到 堆 大 小 限制 的 影响 

所 用 的 加 权 机 制 : tf 为 基于 词 频 的 加 权 , 而 tfiaqf 为 基于 
TF-IDF 的 加 权 

在 整个 集合 中 可 放 入 词典 文件 的 词 的 最 小 频率 , 低 于 该 频 
率 的 词 被 忽略 

可 放 入 词典 文件 的 词 所 在 文档 的 最 小 个 数 , 低 于 该 频率 的 
词 被 忽略 

可 放 入 词典 文件 的 词 所 在 文档 的 最 大 个 数 。 这 种 机 制 用 于 
去 掉 高 频 词 ( 停 用 词 ) 。 所 在 文档 比例 大 于 该 值 的 词 都 会 
文档 集合 中 选 出 的 n-gram 的 最 大 长 度 


这 个 标志 仅 当 n-gram 大 于 1 时 才 生 效 。 明 显 有 意义 的 
n-gram 有 很 大 的 值 , 如 1000; 没什么 意义 的 则 值 较 低 。 虽 
然 并 无 特定 方法 来 选取 该 值 ， 根 据 经 验 ，LLR 人 小 于 1.0 的 
n-gram 通常 表示 无 意义 

归 一 化 值 用 在 Li 空间 。 归 一 化 的 详细 解释 见 8.4 六 。 默 认 
的 策略 是 对 权重 不 做 归 一 化 

并 行 执行 的 reduce 任 务 的 个 数 。 当 基于 目录 的 癌 量化 程序 
运行 在 Hadoop 集 群 上 时 ， 这 个 标志 会 生效 。 将 它 设置 为 
集群 的 最 大 市 点 数 会 获得 最 高 的 性 能 。 如 果 把 这 个 值 设置 
得 比 集群 节点 个 数 更 大 , 会 导致 性 能 略为 下 降 。 通过 阅读 
Hadoop 文 档 ， 可 以 获得 设置 最 优 reducer 个 数 的 详细 信息 
如 果 这 个 标志 被 设置 ， 输 出 向量 就 被 创建 为 Seauential 
AccessSparseVector。 而 默认 情况 下 ， 基 于 日 录 的 癌 
量化 程序 创建 的 是 RandomAccessSparseVector。 前 才 
在 某 些 算法 ( 如 k-means 和 SVD ) 上 可 获得 更 高 的 性 能 ， 
原因 在 于 问 量 操作 的 连续 访问 特征 。 默认 情况 下 , 这 个 标 
志 不 被 设置 


默 认 值 
N/A 


org.apache.lucene.an 
alysis.standard. 
StandardAnalyzer 


100 


tfidf 


99 


N/A 
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看 一 下 使 用 这 些 命 令 行 命令 所 生成 的 目录 : 
$s ls reuters-vectors/ 

df-county/ 

dictionary.file-0 

fregquency.file-0 

tfidf-vectors/ 

tf-vectors/ 

tokenized-documentsy/ 


WE 

在 输出 目录 中 , 你 会 看 到 一 个 词典 文件 和 几 个 目录 。 这 个 词典 文件 包含 一 个 从 词 到 它 的 整数 
型 ID 的 映射 。 当 你 需要 读 取 不 同 算法 的 输出 结果 时 ,这 个 文件 就 派 上 用 场 了 ,所 以 你 需要 保留 这 
个 词典 文件 。 其 他 的 文件 夹 是 在 癌 量 化 过 程 中 所 生成 的 中 间 文 件 夹 ， 它 们 是 由 多 个 步 又 ( 多 个 
MapReduce 作 业 ) 产生 的 。 

第 一 步 是 文本 文档 人 符号 化 一 一 它们 被 Lucene StandardaAnalyzer 拆 分 为 单个 的 单词 ， 并 存 
储 在 tokenized-documents/ 文 件 夹 中 。 第 二 步 是 字数 统计 一 一 即 z-gram 生 成 〈 在 本 案例 中 仅 计 算 
unigrams ) 迭代 人 处理 所有 被 符号 化 的 文档 ， 并 生成 重要 单词 的 集合 。 第 三 步 使 用 词 频 权 重 将 
符号 化 的 文档 转换 为 器 量 ， 进 而 生成 TF 癌 量 。 上 默认 情况 下 ， 癌 量化 程序 使 用 TF-IDF， 因 此 后 面 
还 有 两 个 步骤 : DF ( Document-Frequency， 文 档 频 率 ) 统计 任务 ， 以 及 TF-IDF 辐 量 生成 。 

TF-IDF 加 权 的 癌 量 化 文档 可 以 在 tfidf-vectors/ 文 件 夹 下 找到 。 对 于 大 多 数 应 用 ， 你 只 需要 这 
个 文件 夹 和 词典 文件 即 可 。 

让 我 们 重新 审视 Reuters SequenceFiles 并 使 用 非 默认 的 值 来 生成 一 个 回 量 数据 集 。 所 用 的 
非 默认 标志 住 如 下 。 


UD -a 使 用 org .dpache.lucene.analysis .Whi tespaceAnalyzer 基 于 单词 之 间 的 空 日 


字符 来 标记 单词 。 
口 -chunk 使 用 200MB 的 块 大 小 。 这 个 值 不 会 对 Reuters 数 据 产生 任何 影响 ， 因 为 词典 大 小 
通常 在 1MB 范 围 内 。 


口 -wt 使 用 fiaf 加 权 方 法 。 

口 -s 使 用 5 作为 最 小 支持 度 。 

口 md 使 用 3 作为 最 小 文档 频率 值 。 

口 -x 使 用 90% 作 为 最 大 文档 频率 百分比 ， 以 尽量 去 除 高 频 词 。 

口 -ng ”使 用 2 作为 n-gram 大 小 ， 以 生成 unigram 和 bigram。 

口 -ml 使 用 50 作 为 对 数 似 然 比 ( LLR ) 的 最 小 值 ， 从 而 只 保留 有 明显 意义 的 bigram。 
UD-seqg 设置 SequentialAccessSparseVectors 标 志 。 

暂时 不 设置 归 一 化 标志 ( -n )。 下 一 市 我 们 再 回来 讨论 这 个 标志 。 

在 Mahout 的 启动 硕 脚本 中 使 用 上 述 选项 运行 回 量化 程序 。 


bin/mahout segq2sparse -1 reuters-segqfiles/ -0o reuters-vectors-bigram ~ow 
-a org.apache.lucene.analysis.WhitespaceAnalyzZer 
-Chunk 200 -wt tfidf -ss 5 -md 3 -x 90 -ng 2 -ml 50 -segq 
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这 个 癌 量 化 作业 时 生成 的 词典 文件 从 654 KB 增长 到 1.2 MB。 虽 然 我 们 依据 频率 消除 了 更 多 
的 unigram, 但 是 即便 使 用 LLR 准 值 过 滤 , 我 们 也 会 让 bigram 的 个 数 几乎 翻 一 倍 。 包含 trigram 之 后 ， 
词典 大 小 会 增长 到 2MB。 至 少 在 从 bigram 到 trieram 以 及 之 后 的 过 程 中 , 它 的 大 小 还 只 是 按 线 性 增 
长 的 ， 这 归功 于 基于 LLR 的 过 滤 过 程 。 否 则 ,词典 大 小 会 呈 指 数 增长 。 

至 此 , 你 已 经 可 以 尝试 Mahout 所 提供 的 任何 聚 类 算法 了 。 在 文本 回 量 化 中 只 有 一 个 需要 理解 
的 重要 概念 了 : 归 一 化 。 我 们 下 面 来 讨论 它 。 


8.4 ”基于 归 一 化 改善 向 量 的 质量 


归 一 化 (normalization ) 在 这 里 是 一 个 清理 边界 情况 的 过 程 一 一 市 有 异 稼 特征 的 数据 会 导致 
结果 出 现 不 正常 的 偏差 。 例 如 ,在 使 用 某 些 距离 测 度 计算 文 档 之 间 的 相似 性 时 ， 总 会 有 几 个 文档 
似乎 与 集合 中 所 有 其 他 的 文档 都 相似 , 但 仔细 观察 ， 你 会 发 现 这 是 因为 这 个 文档 非常 大 , 并 且 它 
的 问 量 有 许多 非 零 的 维度 ， 导 致 它 和 许多 较 小 的 文档 都 相似 。 因 此 , 在 计算 相似 性 时 ,我们 需要 
设法 抵消 回 量 大 小 不 同 所 造成 的 影响 。 降 低 大 回 量 的 重要 性 , 并 提高 较 小 回 量 的 重要 性 的 过 程 就 
称 为 归 一 化 。 

在 Mahout 中 ， 归 一 化 使 用 了 在 统计 学 中 的 p 范 数 (p-norm )。 例 如 ,一 个 三 维 癌 量 [x,y,2z] 中 的 


7 
Pp Pp 和 Pp Pp 2 Pp Pp By 
和 半生 于 二 
这 里 ， 表 达 式 (pp + y+]z)”) 可 视 为 一 个 向 量 的 范 数 (norm )， 我 们 就 是 让 每 个 向 量 的 值 
都 除 以 这 个 数 。 参 数 p 可 以 是 大 于 0 的 任意 值 。 向 量 的 一 范 数 ( 1-norm ) 或 者 曼哈顿 范 数 ( Manhattan 
norm ) 是 这 个 向 量 除 以 所 有 维度 的 权重 之 和 |。 


0 
tly hr bltlal 加 + 


二 邢 数 ( 2-norm ) 或 者 欧 氏 范 数 (Euclidean norm ) 是 这 个 回 量 除 以 它 的 幅 值 
将 这 个 幅 值 习惯 地 理解 为 向 量 的 长 度 。 


我 们 可 以 


ES RE 
无 穷 苑 数 (infinite norm ) 简单 地 将 回 量 除 以 最 大 幅 值 维 度 的 权重 : 
RICE 
EE ME) 


你 选择 的 范 数 虞 值 (p ) 依赖 于 对 该 向 量 采 取 的 是 哪 种 操作 。 如 有 果 使 用 曼哈顿 距离 测度 ， 一 
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范 数 通 常会 取得 较 好 的 结果 。 类 似 地 ， 如 果 计 算 相 似 度 使 用 的 是 欧 氏 距离 测度 的 余弦 值 , 向 量 二 
i 归 一 化 应 该 关联 到 在 相似 性 度量 中 所 用 的 距离 
定义 。 


注意 在 p 范 数 中 的 p 可 以 是 任意 的 有 理 数 ， 因 此 3/4、5/3 和 7/5 都 是 合法 的 归 一 化 窜 值 。 在 词典 
向 量化 程序 中 ,使 用 -norm 标 志 设 置 这 个 窜 值 。INF 的 值 代表 一 个 无 穷 生成 这 个 用 2 来 归 一 
化 的 bigram 回 量 与 运行 Mahout 局 动 磊 一 样 简 单 ， 使 用 sea2sparse 命 令 并 把 标识 -n 设 为 2: 


bin/mahout segq2sparse -1 reuters-seaqfiles/ -0o reuters-normalized-bigram ~ow 
-a org.apache.lucene.analysis.WhitespaceaAnalyzer 
-chunk 200 -wt tfidf -SS 5 -md 3 -x 90 -ng 2 -ml 50 -SeG -n 2 


归 一 化 对 聚 类 的 质量 有 所 提高 。 进一步 改 善 聚 类 质量 需要 针对 特定 问题 来 设计 距离 测度 和 合 
适 的 算法 。 下 一 章 ， 我 们 将 呈现 Mahout 中 的 各 种 聚 类 算法 。 


8.5 ”小结 


在 本 章 中 ,你 学 习 了 聚 类 这 类 机 妖 学 习 算 法 所 使 用 的 最 重要 的 数据 表示 机 制 : Vector 格 式 。 
在 Mahout 中 有 两 种 类 型 的 Vvector 实 现 ， 稀 玖 ( sparse ) 和 密集 ( dense ) 问 量 。 密 集 问 量 由 
DenseVector 类 实现 ; RandomaAccessSparseVector 是 为 满足 应 用 快速 随机 该 取 而 设计 的 一 个 
稀 踊 实现 , 而 SequentialAccessSparseVector 则 是 为 满足 应 用 快速 顺序 读 取 而 设计 的 。 你 可 
以 根据 你 算法 的 访问 模式 来 酌情 选择 。 

你 学 习 了 如 何 将 一 个 对 象 的 重要 特征 映射 为 数值, 进而 生成 代表 不 同 对 象 类 型 的 回 量 (在 我 
们 的 示例 中 是 苹果 )。 然 后 ， 就 可 以 通过 SequenceFile 读 写 这 些 向 量 ， 它 是 Mahout 中 所 有 聚 类 
算法 都 采用 的 格式 。 

文本 文档 在 聚 类 中 被 频繁 使 用 。 使 用 癌 量 空间 模型 (VSM ) 可 以 将 文本 文档 表达 为 Vector。 
TF-IDF 加 权 案 上 略 被 证 明 是 一 种 简单 有 效 的 方法 ， 能 够 消除 聚 类 过 程 中 集 用 词 所 造成 的 负面 影响 。 
在 经 典 TF-IDF 加 权 生 略 中 假设 单词 彼此 独立 , 从 而 掩盖 了 文本 中 的 一 些 重 要 特征 , 但 是 在 Mahout 
中 基于 搭配 的 n-gram 生成 方法 ,通过 使 用 对 数 似 然 比 测试 找 出 单词 的 明显 分 组 ， 从 而 一 定 程 度 上 
解决 了 这 个 问题 。Mahout 基 于 词典 的 癌 量化 程序 可 以 轻松 地 将 Retuers 的 新 闻 集 合 转 化 为 同 量 。 

最 后 ， 文本 文档 的 长 度 对 距离 测度 的 质量 有 负面 的 影响 。 词 典 癌 量化 程序 所 实现 的 p 归 一 化 
方法 通过 除 以 癌 量 的 p 范 数 来 重新 调整 回 量 的 权重 ， 从 而 解决 了 这 个 问题 。 

使 用 Reuters 的 癌 量 数据 集 ， 我 们 可 以 使 用 不 同 的 技术 来 做 聚 类 ， 它 们 各 有 利弊。 在 下 一 章 
我 们 将 探讨 这 些 技术 。 


Mahout 中 的 聚 类 算法 


本 章 内 容 

口 k-means 聚 类 

口 使 用 canopy 聚 类 生成 篮 的 中 心 

口 模糊 k-means 聚 类 与 狄 利 元 雷 聚 类 

口 聚 类 的 一 个 变种 ,使 用 潜在 狄 利 元 雷 分 配对 话题 建 模 


现在 ,你 已 经 知道 输入 数据 如 何 表 示 为 Vector， 以 及 如 何 创 建 sSequenceFi1le 用 作 聚 类 算 
法 的 输入 ， 你 可 以 开始 尝试 Mahout 提 供 的 各 种 聚 类 算法 了 。Mahout 包 含 了 很 多 聚 类 算法 ， 对 于 
一 个 给 定 的 数据 集 ， 某 些 算法 适用 ， 而 另 一 些 则 不 适用 。k-means 是 一 种 通用 的 聚 类 算法 ， 它 可 
以 容 匈 地 应 用 在 大 部 分 场合 。 它 通俗 易 避 ， 而 且 可 以 很 容易 的 在 多 人 台 机 需 上 并 行 执行 。 

因此 ， 在 了 解 各 种 聚 类 算法 的 细 和 之前， 我 们 最 好 先 通过 k-means 算 法 得 到 一 些 实践 经 验 。 
在 此 基础 上 , 更 容易 理解 其 他 不 太 篆 见 的 技术 有 何 缺 陷 与 不 足 , 并 了 解 它 们 如 何在 特定 场合 更 好 
的 完成 聚 类 。 你 将 使 用 k-means 算 法 对 新 闻 文 章 进 行 聚 类 ， 并 通过 其 他 技术 改善 聚 类 质量 。 然 后 ， 
你 将 学 习 如 何 利用 canopy 聚 类 推 乔 k-means 中 的 [人 值 。 有 了 这 些 知 识 ， 你 将 实现 一 个 新 闻 聚 合 网 站 
的 聚 类 工作 流 ， 从 而 更 好 的 认识 如 何 用 聚 类 解决 真实 世界 中 的 问题 。 

融 悉 了 k-means 之 后 ， 我 们 也 会 介绍 它 的 一 些 缺 点 ， 以 及 其 他 特殊 类 型 的 聚 类 算法 如 何 填 补 
这 些 空 日 。 我 们 会 讨论 模糊 k-means 和 狄 利 克 雷 ( Dirichlet ) 聚 类 在 此 类 情况 下 的 应 用 。 最 后 ,我 
们 将 介绍 潜在 LDA ( Latent Drichlet Allcation， 狄 利克 备 分 配 )， 一 个 与 聚 类 非常 相似 的 算法 ， 但 
实现 了 一 些 更 有 趣 的 东西 。 

有 很 多 需要 介绍 的 东西 ， 所 以 不 要 这 里 浪费 时 间 了 。 我 们 现在 就 通过 k-means 算法 进入 聚 类 
的 世界 。 


9.1 k-means 聚 类 


k-means 与 聚 类 的 关系 ， 正 如 Vicks 与 止咳 糖浆 的 关系 一 样 。 它 是 一 个 简单 的 算法 ， 已 经 有 5$S0 
多 年 的 历史 。Stuart Lloyd 于 1957 年 首先 提出 了 标准 算法 ,并 将 其 用 于 脉冲 编码 调制 ,但 直到 1982 
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年 才 发 表 ”。 它 在 众多 科学 领域 中 被 广泛 用 作 聚 类 算法 。 该 算法 要 求 用 户 设 定 聚 类 个 数 k 作 为 输入 
参数 。 前 面 第 7 革 中 ， 我 们 对 二 维 平面 内 的 点 进行 聚 类 时 已 经 使 用 过 该 算法 。 让 我 们 来 进一步 了 
解 算法 的 细节 。 

k-means 算 法 有 一 个 硬性 限制 ， 就 是 篮 的 个 数据 你 可 能 会 质疑 这 一 限制 是 否 影响 聚 类 效果 ， 
但 这 种 担心 是 多 余 的 。 在 其 诞生 的 29 年 里 ， 该 算法 已 被 证 明 能 够 广泛 用 于 解决 现实 世界 的 问题 。 
即使 你 估计 的 k 值 是 次 优 的 ， 聚 类 质量 也 不 会 受到 太 大 影 啊 。 

假设 你 要 对 新 闻 报 道 进 行 聚 类 ， 以 得 到 顶层 类 别 ， 如 政治 、 科 学 、 体 育 等 。 对 此 ， 我 们 倾 回 
于 选择 较 小 的 4 值 ， 可 能 是 10 到 20 之 间 。 如 果 需 要 细 镁 度 的 主题 ， 则 需要 更 大 的 [ 值 ， 如 $0 至 100。 
假设 你 的 数据 库 中 有 1 000 000 篇 新 闻 报 道 , 需要 按 讨 论 的 话题 进行 分 组 。 这 类 相关 话题 的 数量 将 远 
远 小 于 整个 语料库 的 大 小 一 一 每 个 艇 可 能 包含 大 约 100 篇 报道 ,这 意味 着 你 需要 使 用 大 小 在 10 000 
左右 的 k 值 来 生成 这 样 一 个 分 布 。 这 个 例子 能 够 反映 出 聚 类 的 可 扩展 性 ， 而 可 扩展 性 正 是 Mahout 
的 强项 。 

为 使 k-means 得 到 较 好 的 聚 类 质量 ,你 需要 首先 估算 K 值 。 一 个 近似 的 方法 是 基于 已 有 数据 和 
需要 的 族 个 数 佑 计 k 值 。 在 前 面 的 例子 中 ， 我 们 有 大 约 一 百 万 篇 新 闻 报道 ， 如 末 平 均 每 个 话题 有 
500 篇 相关 报道 ， 那 么 你 就 应 该 把 聚 类 的 k 值 设 为 2000 ( 1 000 000/500 )。 

这 是 一 种 原始 的 估计 簇 个 数 的 方法 。 然 而 ， 即 使 是 这 样 粗 略 的 估计 ，k-means 算 法 也 能 得 到 
令 人 满意 的 聚 类 结果 。 影 响 K-means 聚 类 质量 的 决定 性 因素 是 所 使 用 的 距离 测度 的 类 型 。 在 第 7 草 
中 , 我 们 提 到 了 Mahout 中 各 种 各 样 的 距离 测度 。 我 们 将 回顾 这 些 距 离 测度 方法 , 并 在 本 章 的 例子 
中 测试 它们 的 效果 。 


9.1.1 关于 k-means 你 需要 了 解 的 


让 我 们 更 进一步 了 解 k-means 算 法 。 假 设 我 们 有 nn 个 点 ， 宕 要 聚 到 k 个 族 中 。k-means 算 法 首先 
从 包含 k 个 中 心 点 的 初始 集合 开始 。 随 后 ， 算 法 进行 多 次 迭代 处理 并 调整 中 心 位 置 ， 直 到 达到 最 
大 迭代 次 数 ， 或 中 心 收 敛 于 固定 点 不 青 移动 。 

图 9-1 展 示 的 是 一 轮 k-means 迭 代 。 实 际 算法 是 一 系列 这 样 的 迭代 。 

此 算法 有 两 个 步骤 。 第 一 步 , 找到 距离 各 中 心 最 近 的 数据 点 , 并 将 这 些 数 据点 赋 给 特定 的 簇 。 
第 二 步 ， 使 用 各 簇 中 所 有 点 的 坐标 的 均值 更 新 中 心 位 置 。 

这 种 两 步 算 法 是 EM ( Expectation Maximization， 期 望 最 大 化 ) 算法 的 一 个 经 上 典 例 子 。 在 EM 算 
法 中 ， 两 个 步骤 会 重复 执行 直到 收敛 。 第 一 步 ， 称 为 E ( Expectation， 期 望 ) 步骤 ， 寻 找 预 期 会 与 
一 个 艇 有 关联 的 点 。 第 二 步 ， 称 为 M ( Maximization， 最 大 化 ) 步 又， 利用 E 步 又 获得 的 信息 改善 对 
篮 中 心 的 估计 。 对 EM 的 详尽 解释 不 在 本 书 的 讨论 范围 之 内 ， 但 是 有 大 量 资源 可 供 在 线 获取 ”。 


GD Stuart P Lloyd, “Least Squares Quantization in pcm”, IEEE Transactions on Information Theory IT-28, 2: 129-137. 
http://citeseerx.1ist.psu.edu/viewdoc/summary?do1=10.1.1.131.1338. 

@) Frank Dellaert 从 下 界 最 大 化 的 角度 解释 了 EM 算法 , “The Expectation Maximization Algorithm”，http://wwwi.cc. 
gatech.edu/~dellaert/em-paper.pdf。 维 基 百 科 上 也 有 关于 此 算法 的 词 条 : http://en.wikipedia.org/wiki/Expectation- 


maximization algorithm.。 


全) 


No.9 
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图 9-1 k-means 聚 类 实例 。 选 择 三 个 随机 点 用 作 聚 类 中 心 (左上 ) ，map 阶 段 (右上 ) 
将 每 个 点 赋 给 离 其 最 近 的 艇 。 在 reduce 阶 段 (左下 ) ， 取 相互 关联 的 点 的 均值 ， 


作为 新 的 族 中 心 位置 ， 得 到 本 轮 迷 代 的 最 终 布局 ( 右 下 ) 。 在 每 一 轮 返 代 结 
后 ， 最 终 布局 将 被 反馈 给 同样 的 循环 过 程 ， 和 直到 聚 类 中 心 的 位 置 不 再 移动 


在 了 解 了 k-means 的 技术 之 后 ,让 我 们 看 看 在 Mahout 中 非常 重要 的 k-means 类 ， 并 运行 一 个 简 
单 的 聚 类 实例 。 


9.1.2 ”运行 k-means 聚 类 


k-means 聚 类 算法 可 以 通过 KMeansClusterezr 或 KMeansDriver 类 运行 。 前 者 以 ip-memory 
方式 对 数据 点 进行 聚 类 ， 而 后 着 则 可 以 用 于 局 动 一 个 MapReduce 作 业 来 执行 k-means。 这 两 种 方 
法 不 仅 能 像 普 通 Java 程 序 一 样 从 傍 盘 上 访 写 数据 来 运行 ， 也 可 以 在 一 个 Apache Hadoop 集 群 上 执 
行 ， 在 分 布 式 文件 系统 上 读 写 数据 。 

在 这 个 例子 中 ， 你 将 使 用 一 个 随机 数据 点 生成 器 。 它 产生 vector 形 式 的 数据 点 ， 这 些 点 以 
指定 中 心 呈 正 态 分 布 。 你 可 使 用 Mahout 中 in-memory 形 式 的 k-means 实 现 来 对 这 些 点 进行 聚 类 。 

代码 清单 9-1 中 generateSamples 国 数 可 以 使 用 如 下 输入 参数 ， 比 如 说 是 一 个 以 (1, 1) 为 中 
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、 标 准 差 为 (2)、 ee 中 心 附近 呈正 态 分 布 的 n(400) 个 随机 点 的 集合 。 类 似 的 ， 你 还 要 生成 为 
外 商人 点 集 中 心 分 别 是 (1,0) 和 (0, 2)， 相 应 的 标准 差分 别 为 0.5 和 0.1。 代 码 清 单 9-1 使 用 如 下 参数 
运行 KMeansClusterer: 

口 输入 点 为 List<Vector> 格 式 ; 

口 DistanceMeasure 是 EuclidqeanDistanceMeasutre; 

口 收敛 国信 为 0.01; 

口 族 个 数 [ 为 3; 

口 初始 中 心 由 RandomPointsUti1l 选 定 ， 与 第 7 章 中 的 Hello World 例 子 相 同 。 


代码 清单 9-1 在 内 存 中 执行 kmeans 聚 类 算法 的 示例 。 


private static void generateSamples (List<Vector> vectors, int num, 
double mx, double my, double sd) { 
for {int i = 0; 1 < num; i++) { 


vectors.add{lnew DenseVectort 
new double[] { 
UncommonDistributions,.rNorm(mx, sd), 


UncommonDistributions.rNorm(my, sd) 


public static void main(lString[] args) { 
List<Vector> sampleData = new ArrayList<Vector>!(),; 
_ 生成 3 个 | 点 集 


generateSamples (sampleData, 400, 1, 1, 3);: 
generateSamplesisampleData, 300, 1, 0, 0.5);} 
generateSamples {sampleData, 300, 0, 2, 0.1) 


int k = 3: 


List<Vector> randomPoints = RandomPointsUtil .chooseRandompPointst 
sampleData, k).; 
List<Cluster> clusters = new ArrayList<Cluster>!(),; 


1 ClusterLd = 0 
for (Vector Vv : randomPoints) 1 
clusters.add{linew Clusterl(lv, clusterId++, 
new EuclideanDistanceMeasure{())),; 


) 


Ljst<List<Cluster>> finalClusters 
= KMeansClusterer.clusterpPoints(samleData, clusters, 


new EuclideanDistanceMeasure!(}, 3, 0.01): 
for{Cluster cluster : finalClusters.get!t “| affirmeansclusterer 
finalClusters.size() - 1})) 1{ 
System.cout.println{"Cluster id: " + cluster.getId!t{) 
RE 渎 取 簇 中 心 并 打印 
ClLuster.cetCenmnter(t) .asFormatSstring(}}: 
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在 Mahout 的 mahout- exampl es 模块 中 有 一 个 Di splayKMe ans 类 它 是 二 维 平 面 内 算法 可 视 
化 的 一 个 有 力 = 它 能 显示 族 在 每 一 轮 迭 代 中 如 何 移 动 0 这 也 是 一 个 展示 KMeansClus terer 
如 何 做 聚 类 的 很 好 例子 ,以 Java Swing 应 用 程序 的 形式 运行 DisplayKMeans , 并 查看 示例 的 输出 ， 
如 图 9-2 所 示 。 


\ 


图 9-2 ”在 这 个 kmeans 聚 类 示例 中 ， 我 们 将 k 设 为 3， 并 试图 对 3 个 不 同 正 态 分 布 的 数据 点 进 


你 可 以 清晰 的 看 到 簇 在 移动 


行 肾 类 。 较 细 的 线 表 示 前 一 次 大 代 所 估计 的 簇 


注意 ，k-means 的 in-memory 聚 类 实现 适用 于 vector 对 象 的 列表 。 这 个 程序 的 内 存 用量 取 决 
于 所 有 回 量 大 小 的 总 和 。 当 回 量 为 稀 玻 回 量 时 ， 禾 的 大 小 要 大 于 回 量 的 大 小 , 看 为 密集 回 量 则 二 
者 大 小 相同 。 作 为 一 条 经 验 法 则 ， 内 存 需 求 量 包括 所 有 输入 问 量 的 大 小 之 和 ， 上 再 加 上 K 个 复 中 心 
的 大 小 。 但 当 数 据 量 太 大 时 ， 你 就 无 法 运行 这 一 聚 类 实现 。 

而 这 正 是 MapReduce 的 长 处 。 使 用 MapReduce 架 构 ， 你 可 以 将 聚 类 算法 分 配 到 不 同 的 机 器 上 
运行 ,每 个 mapper 处 理 这 些 点 的 一 个 子 集 。Mapper 作 业 将 以 流 的 形式 谈 取 输入 数据 点 ， 并 计算 出 
距离 这 部 分 点 最 近 的 艇 。 

MapReduce 版 的 k-means 算法 为 Hadoop 集 群 而 设计 ,但 是 没有 Hadoop 时 也 能 高 效 地 运行 。 
Mahout 是 在 Hadoop 代 人 码 之 外 编译 的 ， 这 意味 看 你 可 以 在 没有 Hadoop 集 群 的 情况 下 ， 直 接 在 Java 
中 运行 同样 的 实现 ， 并 模拟 Hadoop 单 全 机 硕 的 情形 。 

1. 理解 kr-means 聚 类 的 MapReduce 作 业 

在 Mahout 中 ，MapReduce 版 的 kK-means 算 法 由 KMeansDriver 类 实例 化 。 该 类 只 有 一 个 人 
runJop 方 法 。 

你 已 经 在 第 7 草 中 见 过 k-means 的 实例 。 算 法 接受 如 下 输入 参数 。 

口 Hadoop 下 [和 置 。 

口 包含 输入 Vector 的 SequenceFile。 

口 包含 初 妈 cluster 中 心 的 SequenceFile。 

口 用 到 的 相似 性 上 度量。 我们 将 使 用 EuclideanDistanceMeasure 作 为 相似 性 度量 , 并 在 稍 
后 试验 其 他 度量 方式 。 


口 
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D convergenceThreshold 病 值 。 如 果 一 次 迭代 中 ， 中 心 移动 量 少 于 这 个 距离 ， 则 不 青 继 
续 迭 代 ， 并 终止 聚 类 过 程 。 
口 迭代 数量 。 这 是 一 个 硬性 限制 ; 如 采 达 到 这 个 国信 ， 则 聚 类 终止 。 
Mahout 算 法 从 不 修改 输入 目录 。 因 此 你 可 以 灵活 地 试验 算法 的 各 种 不 同 参数 。 对 于 Java 代 但， 
你 可 以 以 如 下 代码 清单 中 的 方式 调用 入 口 函 数 ， 对 文件 系统 中 的 数据 进行 聚 类 。 
代码 清单 9-2 k-means 聚 类 作业 入 口 


KmeansDriver.runJob (hadoopCont, 


jinputVectorFilesDirPath, clusterCenterFilesDirPath, 
outPputDir, new EuclideanDistanceMeasure!{(), 


convergenceThreshold, numIliterations, true, false); 


提示 Mahout 使 用 Hadoop 的 FileSystem 类 读 写 数据 。 这 使 得 我 们 可 以 无 颖 对 接 到 本 地 文件 系 
统 ( 通过 java.io ) 和 分 布 式 文件 系统 ， 如 HDFS 和 S3FS (使 用 Hadoop 内 部 类 )。 这 样 一 来 ， 
工作 于 本 地 文件 系统 上 的 代码 同样 可 以 工作 于 集群 上 的 Hadoop 文 件 系统 ， 只 要 在 环境 变 
量 中 正确 设置 了 Hadoop 配 置 文件 路 径 即 可 。 在 Mahout 中 ，bin/mahout 这 个 SHELL 和 脚本 会 
自动 从 SHADOOP_CONEF 环 境 变 量 寻 找 Hadoop 配 置 文件 。 


我 们 将 使 用 sparsevectorsFromSsedquenceFEile 工 具 ( 曾 在 前 面 第 8 章 讨 论 过 ) 将 存放 在 
SeauenceFile 中 的 文档 转化 为 癌 量 。 因 为 kmeans 算 法 需要 用 户 输 入 K 个 初始 中 心 ，MapReduce 
厂 本 类 似 的 需要 你 输入 存放 K 个 中 心 的 文件 系统 路 径 。 为 了 生成 中 心 文件 ， 你 可 以 目 定 义 一 些 逻 
辑 来 选 定 中 心 点 ， 如 我 们 在 代码 清单 7-2 的 Hello World 例 子 中 所 作 的 一 样 ， 或 者 你 可 以 让 Mahout 
随机 生成 上 个 中 心 ， 详 细 步 骤 如 下 。 

2. 使 用 随机 种 子 生成 器 运行 k-means 作业 

下 面 我 们 按 第 8 章 (8.3 节 ) 介绍 过 的 方式 为 Reuters-21578 新 闻 集 生成 向 量 ， 然 后 在 此 基础 上 
运行 k-means 聚 类 。 在 那 一 章 中 ， 新 闻 集 被 转化 为 Vector 数据 集 ， 并 使 用 TF-IDF 度 量 作 为 权重 。 
Reuters 集 包含 很 多 话题 类 别 , 所 以 你 可 以 把 K 设 为 20 并 观察 k-means 如 何 对 集合 中 广泛 的 话题 进行 
聚 类 。 

要 运行 Kk-means 聚 类 ， 我 们 的 必 选 参数 列表 包含 : 

口 Vector 格式 的 Reuters 数 据 集 ; 

口 用 于 生成 随机 中 心 种 子 的 RandomSeedGenerator; 

SquaredEuclideanDistanceMeasure:; 

口 较 大 的 convergenceThreshold(1.0)， 因 为 我 们 使 用 的 是 平方 欧 氏 距离 ; 

口 maxIterations 设 为 20; 

口 艇 个 数 k 设 为 20。 

如 果 我 们 通过 DictionaryVectorizer 将 文本 转化 为 癌 量 时 使 用 了 多 个 reducer， 
SequenceFile 格 式 的 癌 量 数据 集 通 常会 被 分 割 为 多 个 块 。KMeansDriver 假 定 输入 目录 中 所 有 
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的 文件 均 为 SequenceFile， 并 将 它们 全 部 读 和 人 。 所 以 不 必 担 心 辐 量 被 分 割 到 不 同 的 块 中 ， 它 们 
将 由 Mahout 杠 架 来 处 理 。 

包含 初始 中 心 的 目录 也 是 一 样 的 。 中 心 可 能 被 写 入 到 多 个 sequenceFile 文 件 ， Mahout 会 该 
取 所 有 文件 。 对 于 实时 插入 数据 的 在 线 聚 类 系统 ,这 一 特性 非常 有 用 。 系 统 建立 一 个 新 的 独立 文 
件 块 来 写 入 数据 ， 而 不 是 附 到 已 有 文件 的 末尾， 以免 影响 正在 执行 的 算法 。 


] 性 


告 KMeansDriver 接 受 一 个 初始 簇 中 心目 录 作 为 参数 。 它 仅 在 -Kk 参 数 未 设 定 的 时 候 认 为 
SedquenceFile 文 件 中 包含 了 中 心 。 若 指定 了 -Kk 参 数 ， 该 类 将 删除 此 目录 并 向 
SequenceFile 写 入 随机 选择 的 Kk 个 点 。 


KMeansDriver 还 是 对 Reuters-21$78 新 闻 集 进行 Kmeans 聚 类 的 主 和 人口 点 。 在 命令 行 中 ， 以 
kmeans 为 程序 名 ， 在 Mahout 的 exmples 目录 下 执行 Mahout 局 动 硕 。 开 MeansDriver 将 使 用 
RandomSseedGenerator 随 机 选择 K 个 复 中 心 并 执行 kmeans 聚 类 算法 。 


$s bin/mahout kmeans -i reuters-vectors/tfidf-vectors/ \ 

-CC reuters-initial-clusters \ 

oOo reuters-kmeans-clusters \ 

-dm org.apache.mahout.common.distance.SgquaredEuclideanDistanceMeasure \ 
-cd 1.0 -k 20 -x 20 -cl 


我 们 使 用 Maven 的 Java 执 行 插件 来 指定 命令 行 参数 并 运行 Kmeans 聚 类 。-k 20 参 数 指定 了 中 
心 是 由 RandomSeedGenerator 随 机 生成 的 ， 并 且 会 写 入 到 输入 条 文件 来。 距离 测度 
SquaredEuclideanDistanceMeasure 不 需要 显 式 设 定 ， 因为 它 是 一 个 默认 参数 。 


提示 你 可 以 指定 -h 或 --help 命 令 行 标志 查看 任何 Mahout 包 的 完整 、 详 细 的 命令 行 标 志和 用 法 。 


一 旦 命令 开始 执行 , 聚 类 迭代 过 程 将 一 个 接 一 个 的 运行 .等 竺 中心 收敛 需要 点 儿 出 心 。Hadoop 
监视 程序 会 在 一 轮 MapReduce 的 末尾 打印 计数 带 值 ， 告诉 你 按照 指定 的 国 值 ， 有 多 少 个 中 心 已 经 
收 钱 : 


INFO: Counters: 14 


May 5, 2010 2:52:35 AM org.apache.hadoop.mapred.Counters log 
INFO: Clustering 

May 5, 2010 2:52:35 AM org.apache.hadoop.mapred.Counters log 
INEO : Converged Clusters=6 

May 5, 2010 2:52:35 AM org.apache.hadoop.mapred.Counters log 


如 果 使 用 上 述 参数 在 内 存 中 完成 聚 类 ， 可 能 需要 不 到 一 分 钟 的 时 间 。 在 同样 的 数据 集 上 以 
MapReduce 作 业 的 方式 执行 同样 的 算法 , 则 可 能 需要 几 分钟 的 时 间 。 这 里 增加 的 时 间 来 目 Hadoop 
库 的 开销 。 在 开始 任何 map 或 reduce 任 务 之 前 ， 这 个 库 需 要 做 很 多 的 检查 ， 但 一 旦 开始 ，Hadoop 
的 mapper 和 reducer 就 会 全 速 运行 。 在 单机 环境 中 , 这 个 开销 会 降低 系统 的 执行 性 能 , 但 在 集群 上 ， 
这 种 延 到 市 来 的 不 恨 影 啊 会 被 并 行 计 算 所 节省 的 时 间 抵 消 掉 。 
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让 我 们 回 到 运行 k-means 的 控制 台 。 在 多 个 MapReduce 作 业 之 后 ，k-means 族 收 钱 、 肾 类 结 
然后 点 和 艇 的 映射 被 写 入 输出 文件 夹 。 


提示 当 你 处 理 TB 级 的 数据 时 ,它们 无 法 放 入 内 存 ，MapReduce 版 的 算法 则 具有 较 好 的 扩展 性 ， 
它 可 以 将 数据 存放 在 Hadoop 分 布 式 文件 系统 (HDFS ) 中 并 在 大 型 集群 上 运行 算法 。 如 果 
你 的 数据 量 很 小 并 且 能 够 放 入 内 存 ， 那 么 就 应 该 使 用 in-memory 方 式 的 实现 。 如 果 你 的 数 
据 量 大 到 无 法 放 入 内 存 ， 就 应 该 使 用 MapReduce 并 考虑 将 计算 放 到 Hadoop 集 群 上 完成 。 
查看 http:/hadoop.apache.org/common/docs/r0.20.2/quickstart.html 的 Hadoop 快 速 指 南 ， 可 以 
找到 更 多 关于 在 Linux 机 器 上 搭建 伪 分 布 式 Hadoop 集 群 的 信息 。 


这 一 k-means 聚 类 的 实现 在 输出 文件 夹 中 建立 了 两 类 目录 ，clusters-* 目录 在 每 一 轮 友 代 来 尾 
生成 : clusters-0 目 录 在 第 1 轮 迭 代 之 后 生成 ，clusters-1 目 录 在 第 2 轮 迭 代 之 后 生成 ， 以 此 类 推 。 这 
些 目 录 包 含 了 秘 的 信息 : 中 心 、 标 准 差 等 。 另 一 方面 ，clusteredPoints 目 录 包 含 了 从 簇 ID 到 文档 ID 
的 最 终 映 射 。 这 一 数据 是 根据 最 后 一 轮 MapReduce 操 作 的 输出 生成 的 。 

输出 文件 夹 的 目录 列表 与 下 面 类 似 : 


S ls -1 reuters-kmeans-clusters 


drwxr—-xr-x 4 user 5000 1356 Feb 1 18:56 clusters-0 
drwxr-xr-xXx 4 user S5000 136 Feb 1 18:56 clusters-1 
drwxr-xr-xXx 4 user 5000 136 Feb 1 18:56 clusters-2 


0 4 user 5000 136 Feb 1 18:59 clusteredPoints 

限 类 和 完成 之 后 ， 你 需 检 查 艇 并 观察 它们 是 如 何 形 成 的 。Mahout 提供 了 一 个 叫做 org .apache. 
mahout .utils.clustering.Clusterpumper 的 功能 , 它 可 以 该 取 任 何 聚 类 算法 的 输出 ,并 显示 
各 个 艇 的 顶层 条 日， 以 及 属于 该 艇 的 文档 。 运 行 如 下 命令 执行 ClusterDumper: 


$s bin/mahout clusterdump -dt segquencefile \ 


dd reuters-vectors/dictionary.file-* \ 
-Ss reuters-kmeans-clusters/clusters-19 -b 10 -nn 10 


该 程序 需要 词典 文件 作为 输入 。 这 是 为 了 将 特征 I 有 D 或 Vector 的 维度 转化 为 词 。 
在 最 后 一 轮 迭 代 的 输出 文件 夹 上 执行 Clusterpumper， 会 得 到 如 下 输出 : 


Id: 11736: 
Top Terms: debt, banks, brazil, bank, billion, he, payments, biliion 


dlrs, interest, foreign 


TH: 1298: 
Top Terms: amorphous, magnetic, metals, allied signal, 19.39, corrosion, 
allied, molecular, mode, electronic components 


Id: 20073: 


Top Terms: ibm, computers, computer, att, personal, pc, operating system, 
intel, machines, dos 


(D Mahout-0.7 中 ， 需 要 通过 -i 指 定 聚 类 结果 目录 ， 并 通过 -o 选 项 指定 输出 文件 。 一 一 译 者 注 
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每 次 运行 的 结果 会 有 所 不 同 ， 原 因 在 于 k 个 中 心 是 用 随机 种 子 生 成 右 选 择 的 ， 而 最 终结 果 很 
大 程度 上 取决 于 这 些 中 心 , 在 前 面 的 输出 中 , ID 为 11736 的 簇 中 靠 前 的 单词 为 bank、 brazil、 billion、 
debt 侍 。 此 秘 中 的 大 部 分 文 草 都 是 谈论 这 些 话题 的 新 闻 。 注 意 也 为 20073 的 秘 讨 论 的 是 涉及 计算 
机 及 相关 公司 的 话题 (IBM、AT&T、PC 等 )。 

正如 你 所 看 到 的 ， 使 用 SquaredEuclideanDistanc eMeasure 这 个 距离 测度 标准 可 以 得 到 
一 个 效果 不 错 的 聚 类 结果 ,但 花 了 10 次 以 上 的 迭代 才 得 到 最 终结 末 。 文 本 数据 的 特殊 之 处 在 于 ， 
两 个 内 容 相 似 的 文档 未 必 有 相同 的 长 度 , 而 长 度 不 同 却 话题 相似 的 两 个 文档 之 间 的 欧 氏 距离 会 很 
大 。 也 就 是 说 ,单词 个 数 的 差异 对 两 篇 文档 欧 氏 距离 的 影响 更 大 一 些 , 公共 词汇 对 两 篇 文档 影响 
较 小 。 为 了 更 好 地 理解 这 一 点 ， 请 重 温 7.4.1 太 中 有 关 欧 氏 距 离 公式 的 实验 。 

这 些 因素 导致 欧 氏 距离 不 适用 于 文本 文档 。 看 看 下 面 这 个 使 用 欧 氏 距离 测度 生成 的 族 : 

Id: 20978: 


Top Terms: said, he, have, market, would, analysts, he said, from, which, 
has 


这 个 簇 实在 是 没有 任何 意义 ， 特 别 是 像 said, he 和 the 这 些 单词 。 要 想 真 正在 一 个 数据 集 上 得 
到 好 的 聚 类 结果 ， 你 需要 尝试 7.4 节 提 及 的 Mahout 中 各 种 不 同 的 距离 测度 ， 并 比较 它们 处 理 你 的 
数据 集 时 所 表现 的 性 能 。 

我 们 已 经 知道 余弦 距离 和 谷 本 度量 用 于 文本 文档 的 效果 很 好 , 因为 它们 更 依赖 于 公共 词汇 而 
受 非 公 共 词 汇 的 影响 较 小 。 为 验证 这 一 上 操 ， 我 们 将 在 Reuters 数 据 集 上 进行 实验 , 并 将 其 输出 与 之 
前 聚 类 的 输 出 相 比较 O 证 我 们 来 运行 基于 co sineDistanceMeasure Hk-means : 


$s bin/mahout kmeans -i reuters-vectors/tfidf-vectors/ NA 

-0 reuters-initial-clusters \ 

oO reuters-kmeans-clusters \ 

-dm org.apache.mahout.common.distance.CosineDistanceMeasure \\ 
-Cd 0.1 -k 20 -x 20 -cl 


注意 ， 本 例 中 收敛 国 值 设 为 0.1， 而 不 是 默认 值 0.5 ， 这 是 因为 余弦 距离 的 范围 是 0 到 1。 程 序 
运行 时 ， 有 一 点 需要 特别 注意 : 由 于 余弦 距离 引入 了 额外 的 计算 ， 聚 类 速度 有 所 下 降 ,， 但 聚 类 过 
程 在 儿 次 迭代 之 后 就 收敛 了 , 而 使 用 欧 氏 平方 距离 测度 的 队 类 过 程 则 需要 10 次 以 上 的 迭代 。 这 清 
楚 的 表明 余弦 距离 比 欧 氏 距 离 更 好 的 反映 了 文本 文档 的 相似 度 。 

聚 类 完成 后 ， 我 们 可 以 在 结果 上 运行 ClusterDumper， 并 查看 各 个 复 中 徘 前 的 单词 。 下 面 
征 一 些 有 趣 的 族 : 

Id: 3475:name: 

Top Terms: iranian, iran, iradq, iraqi, news agency, agency, news, gulf, 
war, offensive 


Id: 20861:name: 
Top Terms: crude, barrel, oil, postings, crude oil, 50 cts, effective, 


raises, bbl, ctes 
基于 Mahout 中 k-means 算法 的 实验 ， 可 以 找到 在 特定 聚 类 问题 上 DistanceMeasure 利 
convergenceThreshold 的 最 佳 组 合 。 可 以 在 不 同 数据 上 进行 尝试 ， 并 观察 所 得 到 的 结 o 你 
可 以 探究 Mahout 中 的 各 种 距离 测度 ， 或 尝试 自己 的 距离 测度 。 虽 然 k-means 可 以 在 随机 种 子 艇 的 
基础 上 得 到 很 好 的 结果 ， 但 最 终 的 中 心 位 置 还 是 很 依赖 于 它们 的 初始 位 置 。 
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k-means 算 法 是 一 种 优化 技术 。 给 定 初始 条 件 ，k-means 试 图 把 中 心 放 到 它们 的 最 佳 位 置 。 但 
它 是 一 种 贫 禁 优化, 这 使 得 它 只 是 寻找 局 部 最 优 解 。 可 能 有 其 他 中 心 位 置 也 满足 收敛 性 质 ， 而 且 
它们 当中 可 能 有 些 会 比 我 们 所 得 到 的 结果 更 好 。 我 们 可 能 永远 也 找 不 到 完美 的 秘 , 但 我 们 可 以 通 
过 强 有 力 的 技术 来 通 近 它 。 


9.1.3 ”通过 canopy 聚 类 寻找 最 佳 Kk 值 


对 于 很 多 现实 中 的 聚 类 问题 , 事先 并 不 知道 篮 的 个 数 , 例如 第 7 草 中 同 书馆 书籍 分 组 的 问题 。 
有 一 类 称 为 近似 聚 类 算法 的 技术 可 以 根据 给 定数 据 集 佑 计 自 的 数量 以 及 近似 的 中 心 位 置 。 其 中 的 
-个 算法 称 为 canopy 生 成 (canopy generation ) 算法 。 

默认 情况 下 ，Mahout 中 的 k-means 实现 使 用 RandomSeedGenerator 类 生成 包含 k 个 癌 量 的 
SequenceFile。 尺 管 随机 中 心 的 生成 速度 很 快 ， 但 无 法 保证 为 个 秘 佑 计 出 较 好 的 中 心 。 中 心 
估计 极 大 地 影响 着 k-means 的 运行 时 间 。 好 的 估计 有 助 于 算法 更 快 地 收敛 ， 对 数据 的 人 超 历 次 数 也 
会 更 少 , 男 外 , 最 好 能 够 根据 数据 目 动 确定 徐 的 个 数 , 但 canopy 算 法 仍然 需要 知道 期 望 的 族 大 小 ， 
它 才 能 找到 接近 该 大 小 的 艇 个 数 。 

1. 使 用 canopy 生 成 算法 来 初始 化 k-means 中 心 

canopy 生 成 算法 也 被 称 为 canopy 聚 类 ， 是 一 种 快速 近似 的 聚 类 技术 。 它 将 输入 数据 点 划分 为 
一 些 重 登 的 簇 ， 称 为 canopy。 在 这 一 上 下 文中 ， 术 语 canopy 指 一 组 相近 的 点 ， 或 一 个 复 。canopy 
聚 类 基于 两 个 距离 国 值 ， 试 图 佑 计 出 可 能 的 禾 中 心 〈 或 canopy 中 心 )。 

canopy 聚 类 的 优势 在 于 它 得 到 复 的 速度 非常 快 , 它 只 需 遇 历 一 次 数据 即 可 得 到 结果 。 这 一 优 
势 也 是 它 的 弱点 。 该 算法 无 法 给 出 精准 的 禾 结 果 。 但 它 可 以 给 出 最 优 的 复数 量 , 不 需要 像 k-means 
那样 预先 指定 禾 数 量 k。 

算法 使 用 了 一 个 快速 的 距离 测度 和 两 个 距离 闵 值 (Ti 和 Tz ， 其 中 Ti>T。 它 从 一 个 包含 香干 
点 的 数据 集 和 一 个 空 的 canopy 列 表 开 始 ， 然 后 迭代 这 些 数据 ， 并 在 迭代 过 程 中 生成 canopy。 在 每 
一 轮 迭 代 中 ， 它 从 数据 集中 移 除 一 个 点 并 将 一 个 以 该 点 为 中 心 的 canopy 加 入 列表 。 然 后 遍历 数据 
集中 余下 的 数据 点 。 对 每 一 个 点 ， 它 会 计算 其 到 列表 中 每 个 canopy 的 中 心 的 距离 。 如 果 距 离 均 小 
于 T1， 则 将 其 加 入 该 canopy。 奋 距离 小 于 T,， 则 将 其 移出 数据 集 ， 以 免 在 接 下 来 的 循环 中 用 它 建 
立新 的 canopy。 重 复 上 述 过 程 ， 直 到 数据 集 为 空 。 

这 种 方法 可 以 防止 紧邻 一 个 现 有 canopy 的 点 (距离 小 于 Ts ) 成 为 新 的 canopy 中 心 。 我 们 不 希 
望 在 一 个 现 有 canopy 的 附近 生成 一 个 匈 余 canopy。 图 9-3 显 示 了 使 用 此 方法 所 创建 的 canopy。 其 中 
复 的 形成 仅仅 依赖 于 距离 国 值 的 选取 。 

2. 理解 canopy 生 成 算法 

canopy 生 成 算法 通过 CanopyC lusterer 或 CanopyDriver 类 来 执行 前 者 实现 in-memory 方 
式 的 聚 类 ， 而 后 者 将 其 实现 为 MapReduce 作 业 。 这 些 作 业 可 以 像 普通 Java 程 序 一 样 运 行 ， 读 写 磁 
盘 上 的 数据 。 它 们 也 能 运行 在 Hadoop 集 群 上 ， 谍 写 分 布 式 文件 系统 上 的 数据 。 
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图 9-3 ”canopy 聚 类 : 如 果 你 从 一 个 点 开始 (左上) ， 并 将 其 标记 为 一 个 canopy 的 一 部 分 ， 距 
离 T2 以 内 的 所 有 点 (右上) 被 从 数据 集中 删除 ， 以 免 它 们 形成 新 的 canopy。 外 圆 内 的 
点 (左下 ) 被 放 入 同一 canopy， 但 它们 也 可 以 属于 其 他 canopy。 这 一 分 配 过 程 是 在 一 
次 mapper 过 程 中 完成 的 。Reducer 计 算 中 心 均值 ( 右 下 ) 并 合并 相近 的 canopy 


我 们 这 里 所 用 的 随机 点 发 生 硕 与 前 面 在 二 维 平面 内 所 用 的 相同 , 也 会 生成 服从 正 态 分 布 的 随 
机 点 。 对 于 本 例 ， 我 们 将 生成 三 维 正 态 分 布 。 代 人 码 清单 9-3 通 过 CanopyCclusterer 以 in-memory 
方式 运行 canopy 聚 类 ， 并 使 用 如 下 人 参数: 

口 输入 回 量 为 List<Vector> 格 式 ; 

口 DistanceMeasure 为 EuclLlidqeanDistanceMeasutre; 

口 工 的 值 为 3.0; 

口 工 的 值 为 1.5。 


代码 清单 9-3 ”以 in-memory 方 式 运 行 的 canopy 生 成 算法 示例 


Public static void CanopyExample{) { 
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List<Vector> sampoleData = new ArrayList<Vector>!{().; 
生成 三 个 点 集 
generateSamples (sampoleData, 400, 1, 1, 2).， 
generateSamples (sampleData, 300, 1, 0, 0.5}); 
generateSamples {sampleData, 300, 0, 2, 0.1); 


_ | 运行 canopyclusterer 
( 


List<Canopy> canopies = CanopyClusterer.createCanopies 
sampleData, new EBuclideanDistanceMeasure(), 3.0, 1.5),， 
for({Canopy canopy : canopies) { 
System.out.println{({"Canopy id: " + Canopy.getId!) 
+ " Center: " + | 读 取 canopy 中 心 并 打印 
Camnopy .getCenter(} .asFormatSstring()}): 


} 
} 


在 Mahoutmahout -exampl es 模块 中 的 Di sbplavcanopy 类 可 显示 二 维 平面 内 的 点 集 利用 它 
可 以 显示 出 in-memory 方 式 的 CcanopyClusterer 是 如 何 生 成 canopy 的 。DisplayCanopy 的 典型 
输出 如 图 9-4 所 示 。 


图 9-4 使 用 pisplaycanopy 类 可 视 化 一 个 in-memory 方 式 的 canopy 生 成 示例 ， 它 


包含 在 Mahout 目 带 的 示例 程序 中 。 我 们 使 用 参数 T1=3.0 和 T2=1.5 对 随机 生 
成 的 点 进行 聚 类 


canopy 聚 类 不 要 求 你 指定 篮 中 心 的 个 数 。 中 心 个 数 的 确定 仅仅 依赖 于 距离 测度 ,T1 和 T2 的 选择 。 
与 k-means 的 实现 类 似 ,in-memory 方 式 的 canopy 聚 类 作用 于 一 个 Vector 对 象 的 列表 。 如 果 数 据 集 很 
大 ， 这 个 算法 就 无 法 在 单 台 机 需 上 运行 ， 而 需要 用 MapReduce 作 业 了 。MapReduce 版 的 canopy 聚 类 
实现 使 用 了 一 点 近似 估算 ， 所 以 对 于 同一 个 输入 数据 集 来 说 ， 它 生成 的 结果 与 in-memory 版 的 结果 
有 细微 差别 。 当 数据 集 很 大 时 , 这 点 区 别 是 微不足道 的 。canopy 聚 类 的 输出 很 适合 用 来 作为 k-means 
的 起 始点 ， 因 为 初始 中 心 的 准确 性 较 之 随机 选择 要 高 ， 所 以 能 够 改善 聚 类 效果 。 

使 用 所 生成 的 canopy， 你 可 以 将 点 赋 给 最 近 的 canopy 中 心 ， 理 论 上 这 就 是 对 点 进行 聚 类 。 我 
们 称 之 为 canopy 聚 类 ， 而 不 是 canopy 生 成 。 在 Mahout 中 ，CanopyDrivez 用 于 canopy 中 心 的 生成 ， 
而 将 runclustering 人 参数 设 为 true， 即 可 实现 对 数据 点 进行 聚 类 。 

下 面 ， 你 将 在 Reuters 数 据 集 上 运行 canopy 生 成 ， 并 确定 K 值 。 
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3. 运行 canopy 生 成 算法 来 选择 k 个 中 心 

现在 我 们 来 为 Reuters 的 Vector 数 据 集 生 成 canopy 中 心 。 要 生成 中 心 ， 你 需要 先 设 定 中 离 测 
度 为 EuclidqeanDistanceMeasure， 并 使 用 国 值 t1=2000 和 t2=1500。 注 意 ， 使 用 J 
度 时 ， 黎 芷 文档 回 量 的 距离 会 很 大 ， 所 以 要 得 到 有 意义 的 禾 ， 需 要 把 t1 和 ft2 的 值 设 得 大 一 

本 例 中 选取 的 距离 阔 值 (t1 和 t2 ) 在 Reuters 数 据 集 上 生成 了 不 到 50 个 中 心 。 es 
据 上 多 次 运行 canopyDriver， 就 可 以 对 浆 值 的 选择 有 个 估计 。 因 为 canopy 聚 类 很 快 ， 使 用 多 组 
不 同 的 参数 进行 实验 并 观察 结果 要 比 像 k-means 这 样 耗 时 的 技术 快 得 多 。 

要 在 Reuters 数 据 集 上 执行 canopy 生 成 的 操作 ， 只 需 通 过 Mahout 局 动 希 运行 canopy 程 序 ， 如 下 
所 示 : 


$s bin/mahout canopy -1 reuters-vectors/tfidf-vectors \ 

oo reuters-canopy-~centroids \ 

-dm org.apache.mahout.common.distance.EuclideanDistanceMeasure \ 
-七 1 1500 -t2 2000 


不 到 一 分 钟 ，canopyDriver 就 会 在 给 出 文件 夹 中 生成 中 心 。 你 可 以 使 用 簇 输出 工具 检查 
canopy 中 心 ， 束 如 你 在 本 半 前 面 对 k-means 限 类 结果 所 做 的 一 样 。 

下 面 ， 我 们 将 使 用 这 个 中 心 集合 来 改善 k-means 聚 类 。 

4. 使 用 canopy 中 心 改进 k-means 聚 类 

现在 我 们 可 以 使 用 前 一 下 中 生成 的 canopy 中 心 来 运行 kmeans 聚 类 算法 了 。 为 此 ， 需 要 在 
KMeansDriver 的 艇 参数 ( -c ) 中 设置 canopy 聚 类 结果 的 输出 文件 夹 , 并 去 掉 -k 命 令 行 参 数 。( 注 
意 : 如 果 设 定 了 -k 标 志 ，RandomSeedGenerator 会 禾 盖 canopy 中 心 文件 来。) 

我 们 将 在 k-means 中 使 用 TanimotoDistanceMeasure 以 得 到 簇 


$s bin/mahout kmeans -1 reuters-vectors/tfidf-vectors \ 

-0 reuters-kmeans-clusters \ 

-dm org.apache.mahout.common.distance.TanimotoDistanceMeasure \ 
C_ reuters-canopy-centroids/clusters-0 -cd 0.1 ~ow -x 20 -cl 


完成 聚 类 后 ， 使 用 clusterDumpez 来 检查 复 ， 部 分 结果 如 下 : 


Id: 21523 :name: 
Top Terms: 


tones, wheat, grain, said, usda, corn, usS, Sugar, export, agriculture 
Id: 21409 :name: 

TOD Terms: 
stock, share, shares, shareholders, dividend, said, its, common, board., 

company 

Id* 21155:name: 

TOP Terms: 
Oil, effective, crude, raises, prices, barrel, price, cts, said, dirs 
Id: 19658 :name: 

和 人 
drug, said, aids, inc, company, its, patent, test, products, food 
Id: 21323:name: 

TDP Terms: 

7-apr-1987, 11, 10, 12, 07, 09, 15, 16, 02, 17 


注音 最 后 一 个 艇 。 尺 管 其 他 族 看 上 去 部 是 一 些 比较 不 错 的 话题 ,最 后 一 个 看 起 来 却 胎 无 意义 。 
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不 过 ， 正 是 因为 这 些 文档 中 同时 出 现 了 这 些 词 条 ， 聚 类 算法 才 将 含有 这 些 词 条 的 文档 归 为 一 组 。 
男 外 ， 像 its 和 said 这 样 的 单词 从 语言 角度 来 讲 是 没有 意义 的 ， 但 算法 却 不 知道 这 一 点 。 只 要 被 赋 
予 较 大 权重 的 向 量 特征 能 够 很 好 地 表现 文档 的 特征 ， 任 何 聚 类 算法 都 能 得 到 好 的 聚 类 结 末 。 

在 8.3 方 和 8.4 方 中， 你 已 经 看 到 TF-IDF 和 归 一 化 如 何 将 较 高 的 权重 赋 给 重要 的 特征 ， 而 将 较 
低 的 权重 赋 给 停 用 词 ， 但 即使 这 样 ， 偶 尔 也 会 出 现 意 想不到 的 篮 。 要 避免 此 问题 ， 一 个 快速 而 有 
效 的 方法 就 是 将 这 些 俘 用 词 从 文档 的 Vector 中 删除 。 在 下 一 个 案例 学 习 中 ， 你 将 看 到 如 何 使 用 
一 个 自 定 义 的 Lucene Analyzer 类 来 解决 此 问题 。 

canopy 聚 类 是 一 个 很 好 的 近似 聚 类 技术 , 但 它 有 内 存 限制 。 如 采 距 离 国信 很 接近 ， 丈 会 产生 
太 多 的 canopy， 而 这 将 增加 mapper 中 的 内 存 用 量 。 当 运行 在 一 个 很 大 的 数据 集 上 ， 又 选择 了 不 合 
适 的 国 值 时 ， 就 可 能 会 超出 可 用 内 存 。 下 面 你 将 看 到 ,需要 调 优 参数 以 适应 这 个 数据 集 及 其 聚 类 
问题 。 

下 面 我 们 将 要 看 到 的 例子 是 为 一 个 新 闻 网 站 创建 聚 类 模块 。 我 们 之 所 以 选取 新 闻 网 站 的 例 
子 , 是 因为 它 代 表 了 一 种 典型 的 动态 系统 ,需要 很 精确 地 组 织 它 的 内 容 。 聚 类 可 以 帮助 解决 与 这 
种 与 内 容 系 统 相关 的 问题 。 


9.1.4 ”案例 学 习 : 使 用 k-means 对 新 闻 聚 类 


在 这 个 案例 中 , 我们 将 假设 日 己 在 省 理 一 个 虚构 的 新 闻 案 合 网 站 , 网 站 名 为 AllIMyNews.com。 
访问 网 站 的 用 户 通过 关键 词 搜索 需要 的 内 容 。 如 采 他 们 看 到 一 篇 有 趣 的 文章 , 可 以 用 文中 的 词汇 
搜索 相关 文 草 , 也 可 以 进入 该 文 所 属 的 新 闻 类 别 并 浏览 相关 新 闻 。 通 第 我 们 依 徘 人 工 编辑 来 寻找 
相关 项 ,并 协助 对 整个 网 站 进行 分 类 和 设置 交叉 链接 。 但 如 果 每 天 有 数 万 条 文章 ， 人 工 干 预 的 代 
价 就 太 大 了 。 下 面 我 们 讨论 如 何 用 聚 关 算法 解决 这 一 问题 。 

使 用 聚 类 算法 ,我 们 可 以 目 动 找 到 相关 话题 ， 并 给 予 用 户 一 个 更 好 的 浏览 体验 。 本 节 中 , 你 
将 使 用 k-means 限 类 实现 这 一 功能 。 图 9-5 是 该 功能 在 实际 应 用 中 的 一 个 例子 。 对 于 网 站 上 的 一 则 
新 闻 报道 ， 我 们 将 为 用 户 呈 现 一 个 相关 新 闻 文 革 的 列表 。 


Obama to Name 'Smart Grid Projects 
Wall Street Journal - Rebecca Smith - 1 hour ago 


The Obama administration is expected Tuesday to name 100 
utility projects that will share $3.4 billion in federal stimulus 
funding to speed deployment of advanced technology designed 
to cut energy use and make the electric-power grid ... 

Cobb firm wins "smart-grid" grant Atlanta Journal Constitution 
Obama putting $3.4B toward a ‘smart' power grid The Associate 
Baltimore Sun - Bloomberg - New York Times - Reuters 

all 594 news articles » (Email this story 


图 9-5 取 目 Google News 网 站 的 一 个 相关 文章 功能 的 示例 。 同 一 复 中 类 似 报 着 的 链接 在 
底部 以 粗 体 字 显 示 ， 而 相关 度 靠 前 的 文章 在 这 些 粗 体 字 上 面 以 链接 的 方式 显示 


对 任何 给 定 文章 , 我 们 都 可 以 存储 其 所 属 的 复 。 当 一 个 用 户 请 求 与 他 们 正在 阅读 的 文章 相关 
的 文章 时 ， 我 们 将 选 出 该 艇 中 的 所 有 文章 ， 并 基于 它们 与 给 定 文章 的 距离 排序 并 呈现 给 用 户 。 
对 于 新 闻 聚 类 系统 来 说 ， 上 面 给 出 了 一 个 很 好 的 初始 设计 , 但 它 并 不 完美 。 下 面 ， 我 们 列 出 


可 能 在 同一 _ 时 间 内 产生 多 je a 2 要 为 它 它们 建立 不 同 的 能 ， 这 意味 着 每 次 发 
生 这 种 情况 时 ， 我 们 都 需要 旅 加 更 多 的 中 心 。 

口 文本 内 容 的 质量 没有 保证 ， 因 为 数据 有 多 个 来 源 。 我 们 需要 在 特征 选择 时 有 一 种 内 容 清 
理 机 制 。 

我 们 将 首先 实现 一 个 高 效 的 k-means 聚 类 ， 离 线 地 对 新 闻 文 草 进 行 聚 类 。 这 里 ， 离 线 这 个 词 
表示 我 们 将 把 文档 写 人 seauencepi1e 并 以 后 台 进 程 的 形式 启动 罕 类 过 程 。 我们 不 会 深入 探讨 新 
闻 数 据 如 何 存 储 。 为 简单 起 见 ， 我 们 假设 文档 存储 和 检索 模块 不 能 简单 地 被 蔡 换 为 对 数据 库 读 / 
与 的 代码。 


注意 在 后 续 章 节 中 ， 我 们 将 修改 这 个 案例 ， 并 引入 Mahout 中 的 一 些 高 阶 技术 来 解决 与 速度 和 
质量 相关 的 问题 。 最 终 ， 在 第 12 齐 我 们 将 展示 一 个 可 用 的 、 调 优 的 并 且 可 扩展 的 聚 类 示 


例 ， 用 于 一 些 现实 中 的 数据 集 ， 并 且 可 以 适应 不 同 的 应 用 。 
代码 清单 9-4 展示 了 对 SequenceFile 中 的 新 闻 文 草 聚 类 的 代码 ， 代 码 清单 9-$ 展 示 了 一 个 目 
定义 的 Lucene Analyzezr 类 ， 它 将 非 字 母 字符 从 数据 中 删除 。 
代码 清单 9-4 使 用 canopy 生 成 和 k-means 聚 类 对 新 闻 进 行 聚 类 


Public class NewskKMeansClustering 1 


Public static voiqd main{(String args[]) throws Exception ({ 
int minSupport = 2; 

miNDE 三 8: 

maxDFPercent = 95; 

maxNGramSize = 2; 

minLLRValue = 50， 

reduceTasks = 1; 

chunkSize = 200: 

norm = 2; 


上 上 上 | F 上 上 
TT 9 9 


lean sequentialAccessOutput = true; 


O 
O 


String inputDir = "inputDir": 


Configuration conf = new Configurationt{(); 


FileSystem fs = FileSystem.get (conf).,; 


String outputDir = "newsClusters'"; 
HadoopUtil.deletel(new Path{(l{outputDir)).; 


Path tokenizedPath = new Path{(outputDir, 自 定义 Lucene 
Documentproceseor. TOKENIZED DOCUMENT OUTEUT FOLDER): Analyzer 
MyAnalyzer analyzer = new MyAnalyzer!().; 


DocumentProcessor.tokenizeDocuments (new Path (inputDir), 
analyzer.getClass'() .asSubclassiAnalyzer.class), 
tokenizedPath, conf)}):; < 文本 词 条 化 


DictionaryVectorizer.createTermFrequencyVectors (tokenizedPatnh, 
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new Path(outputDir), conf, minSupport, maxNGramSize, minLLRValue, 

2, true, reduceTasks, 

chunkSize, sequentialAccessOutput, false)., 
TFIDFCoONnverter.processTftIdtt 

new Path (outputDir ， 
DictionaryVectorizer.DOCUMENT VECTOR OUTPUT FOLDER), 


new Path(outputDir)}, conf, chunkSize, minpt, 
maxDFPercent, norm, true, sequentialAccessOutput, false, 计算 TF-IDF 向 量 
reduceTasks});: 


Path vectorsFolder = new Path{({outputDir, "tfidf-vectors");: 
Path canopyCentroids = new Path (outputDir ， 
"canopy-centroids")}).， 
Path clusterOutput = new Path(outputDir , "clusters").; 执行 canopy 中 心 生成 


CanopyDriver.runlvectorsFolder, canopyCentroids, 

new EuclideanDistanceMeasure{), 250, 120, 

false, false),; | 运行 k-means 算法 
kKMeansDriver.run{conf, vectorsFolder., 

new PathlcanopyCentroids, "clusters-0"), 

clusterOutput, new TanimotoDistanceMeasure(), 0.01, 

20, true, false); 


SequenceFile.Reader reader = new SequenceFile.Reader (fs, 
new PathclusterOutput 
+ Cluster.CLUSTERED POINTS DIR + "/part-00000"), conf}).; 


IntWritable key = new IntWritablel(),; 
WelightedVectorWritable value = new WeightedVectorWritable!t{).: 
while (reader.next (key, value})) 1{ 
System.out.println(key.toString(} + " belongs to cluster " 
+ value.toSstring())}).; 
} 读 取 Vector 做 聚 类 映射 


reader.closel().: 


代码 清单 9-5 一 个 目 定 义 的 用 于 过 滤 非 学 母 学 符 的 Lucene 分 析 右 
Public class MyAnalyzZer extends Analyzer { 


private final Pattern alphabets = Pattern,.compile("[a-z]+").; 


QOverride 
Public TokenSstream tokenSstream(String fieldName, Reader reader) { 
Tokenstream result = new StandardTokenizer ( 
Version.LUCENE CURRENT, reader). 
result = new StandardFilter {result):; 
new LowerCaserFrilter (result).,; 


H 


result 


H 


result 


TermaAttribute termAtt = 

(TermAttribute}) result.addaAttributer 
TermAttribute.class); 
StringBuilder buf = new StringBuilder!{(}).; 
try 


9.2 超越 k-means: 聚 类 技术 概览 141 


while (result.incrementToken{})}) { | 过 滤 短 词 条 
if {termaAtt.termLength(}) < 3) continue; 
string word = new Stringl! 
termatt.termButfer{()}, 0, termatt.termLengtht{))}); 
Matcher m = alphabets.matcher (word):; 


if (fm.matches(})}) { 


buf.append (word} .append(" ").; 过 滤 非 字母 词 条 
} 

} 
} catch (TOException e) { 

e.printSstackTrace!().; 
} 


return new WhiteSpaceTokenizer (new StringReader (buf.tostring())):; 
} 
} 


这 个 NewsKMeansClustering 不 例 很 简单 。 文 档 被 存储 在 输入 目录 中 。 我们 在 此 基础 上 创建 仅 
包含 字母 字符 的 一 元 和 二 元 组 向 量 。 使 用 生成 的 Vector 作 输入 ， 我们 运行 canopy 中 心 生成 作业 来 创 
建 kmeans 聚 类 算法 的 初始 中 心 。 最 终 ， 在 k-means 聚 类 结束 后 ， 我 们 读 取 输出 并 将 其 存 信 数据库。 

下 一 市 我 们 将 在 k-means 的 基础 上 更 进一步 ， 介 绍 Mahout 中 的 其 他 聚 类 算法 。 


9.2 ”超越 k-means: 聚 类 技术 概览 


k-means 属 于 刚性 的 聚 类 。 例 如 ， 一 则 谈论 政治 对 生物 技术 影响 的 新 闻 报 道 ， 既 可 以 归 为 政 
治 类 别 , 也 可 以 归 为 生物 技术 类 别 , 但 不 能 同时 归 为 这 两 个 类 别 。 既 然 我 们 希望 优化 相关 文章 这 
一 特性 ， 那 可 能 就 需要 允许 重 半 或 模糊 的 信息 。 我 们 也 许 还 需要 对 数据 点 分 布 建 模 ， 这 已 经 超出 
了 k-means 设 计 的 初衷 。 

k-means 只 是 众多 聚 类 算法 中 的 一 种 。 下 面 我 们 介绍 其 他 一 些 为 不 同 目的 而 设计 的 聚 类 算法 。 


9.2.1 不 同类 型 的 聚 类 问题 


回想 一 下 ， 聚 类 仅仅 是 一 个 对 事物 分 组 的 过 程 。 要 想 在 简单 分 组 的 基础 上 更 进一步 ， 你 需要 
了 解 不 同类 型 的 聚 类 问题 。 这 些 问 题 及 其 解决 方案 主要 分 为 四 类 : 

口 排他 性 聚 类 

口 有 重 莅 聚 类 ，; 

口 层次 聚 类 ; 

口 概 率 聚 类 。 

下 面 我 们 逐一 介绍 。 

1. 排他 性 聚 类 

在 排他 性 聚 类 中 , 一 个 物品 只 能 属于 一 个 类 别 。 回忆 第 7 章 中 讨论 过 的 图 书馆 书籍 聚 类 问题 。 
我 们 可 以 简单 地 把 一 本 像 《 哈 利 … 波 特 》 这 样 的 书 归 入 小 说 类 书籍 。 因 此 ,和 哈 利 . 波 特 》 只 属 
于 小 说 类 。k-means 实 现 的 就 是 这 种 排他 性 聚 类 ， 因 此 ， 如 有 果 聚 类 问题 需要 这 一 约束 ，k-means 通 
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常 都 可 以 搞定 。 
2. 有 重 亚 聚 类 
如 果 我 们 想 要 做 的 是 非 排他 性 聚 类 ， 即 不 仅 把 《 哈 利 : 波 特 》 归 入 小 说 中 ， 而 且 将 其 归 入 年 
轻 人 类 别 和 玄幻 类 别 。 有 重 车 聚 类 算法 ， 如 模糊 k-means 等 就 很 容易 实现 这 一 点 。 此 外 ， 模 糊 
k-means 能 显示 出 对 象 与 徐 的 相关 程度 。 相 对 于 年 轻 人 类 别 ,《 哈 利 ' 波 特 》 可 能 与 玄幻 更 为 相 
近 。 排 他 性 肾 类 与 有 重 闭 聚 类 之 间 的 区 别 在 图 9-6 中 给 出 。 
排他 性 聚 类 重 又 聚 类 


了》 了 轴 
了 了 轴 


(0. 0) Xx 轴 (0, 0) x 轴 


图 9-6 ”排他 性 聚 类 与 有 重 闪 归 类 在 两 个 中 心 上 的 对 比 。 对 于 前 者 ， 方 块 和 三 角形 分 别 有 
目 己 的 艇 ， 且 每 个 图 形 仅 仅 属 于 一 个 秘 。 而 在 有 重 营 内 类 中 ， 某 些 形状 ( 如 图 中 
的 五 角形 ) 可 以 同时 属于 两 个 不 同 的 复 ， 因 此 它们 同时 是 两 个 禾 的 组 成 部 分 


现在 ， 假 设 我 们 有 两 个 复 分 别 代表 不 同类 型 的 书籍 ， 其 中 一 个 是 委 约 ， 另 一 个 是 太空 旅行 。 
《 哈 利 : 波 特 》 属 于 艾 幻 类 书籍 , 但 太空 旅行 和 艾 弘 这 两 个 秘 都 可 以 被 看 做 是 小 说 的 子 译 。 因 此 ， 
通过 合并 这 两 个 艇 ,以 及 其 他 一 些 相似 的 徐 , 我 们 可 以 构建 出 一 个 小 说 秘 。 现 在 ,小 说 和 玄幻 簇 
有 了 父子 关系 ， 如 图 9-7 所 示 ， 因 此 称 为 层次 聚 类 ( hierarchical clustering )。 


图 9-7 ”层次 聚 类 : 一 个 较 大 的 复 和 两 个 较 小 的 族 以 树 型 结构 组 织 在 一 起 ， 
构成 一 种 层次 化 结构 。 回 忆 第 7 章 中 的 例子 一 一 我 们 简单 地 依据 相似 
度 将 书籍 堆 和 琶 到 一 起 时 ， 便 是 完成 了 一 个 粗略 的 层次 聚 类 
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类 似 地 , 我 们 可 以 持续 地 合并 复 ,， 不 断 得 到 更 大 的 复 。 当 进行 到 某 种 程度 时 ， 复 会 变 得 过 于 庞 
大 和 宽泛 , 可 能 已 经 不 再 是 有 意义 的 分 类 。 即 便 如 此 , 这 仍 是 一 个 十 分 有 用 的 聚 类 方法 : 合并 小 的 
复 ， 直 到 得 到 满意 的 结果 。 在 给 定数 据 集 上 发 掘 这 种 系统 性 层次 结构 的 方法 称 为 层次 聚 类 算法 。 

4. 概率 聚 类 

一 个 概率 模型 通常 是 一 个 n 维 平面 内 一 组 点 的 分 布 或 形状 特征 。 有 很 多 种 适合 不 同 数 据 模 式 
的 概率 模型 ,概率 聚 类 算法 设法 为 数据 集 拟 合 出 一 个 概率 模型 ,通过 调整 模型 参数 来 适应 数据 集 。 
因为 少 有 完全 准确 的 拟 合 , 所 以 这 些 算 法 通常 给 出 一 个 百分比 或 概率 值 来 表示 概率 模型 对 簇 的 拟 
合 程度 。 

为 了 解释 如 何 产生 这 种 拟 合 ， 我 们 看 一 下 图 9-8 中 那个 二 维 的 例子 。 假 设 我 们 已 知 平面 上 的 
点 分 布 在 若干 个 椭圆 形 区 域 中 ,但 我 们 不 知道 这 些 区 域 的 中 心 、 半 径 和 轴线 。 我 们 可 以 选择 一 个 
椭圆 形 模 型 并 试图 将 其 拟 合 到 数据 上 ; 并 对 每 一 个 椭圆 区 域 进行 平移 、 拉 伸 或 收 弦 ， 以 得 到 最 住 
拟 合 结果 。 这 称 为 基于 模型 的 聚 类 。 


图 9-8 ”概率 聚 类 的 催化 图 示 。 左 图 是 初始 点 集 。 右 图 第 一 组 点 与 一 个 细 长 
的 椭圆 模型 相 匹 配 ， 而 第 二 个 则 更 为 对 称 


此 类 方法 的 一 个 典型 例子 就 是 狄 利 元 雷 素 类 算法 , 它 根据 用 户 提供 的 一 个 模型 做 拟 合 。 我 们 


将 在 9.4 节 看 到 这 个 聚 类 算法 的 实例 。 在 这 之 前 ， 你 需要 了 解 我 们 是 如 何 根据 不 同 聚 类 算法 的 宁 
略 对 其 分 组 的 。 


9.2.2 不同 的 聚 类 方法 


不 同 聚 类 算法 使 用 不 同 的 策略 。 我 们 可 以 将 其 大 致 分 为 如 下 几 类 : 

口 确定 的 中 心 个 数 ; 

口 自 底 向 上 的 方法 ; 

口 自 顶 向 下 的 方法 。 

还 有 许多 其 他 的 聚 类 算法 ， 具 有 独特 的 聚 类 策略 ， 但 你 可 能 永远 不 会 在 Mahout 中 遇 到 它们 ， 
为 它们 目前 在 大 数据 集 上 不 具有 可 扩展 性 。 这 里 ， 我 们 仅 探 讨 上 述 三 类 算法 。 

1. 确定 的 中 心 个 数 

这 些 的 聚 类 方法 预先 确定 了 簇 的 个 数 。 簇 的 数量 通常 用 字母 x 表示 ， 这 起 源 于 此 类 方法 中 最 
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车 名 的 k-means 算法 。 基 本 思想 是 从 Kk 个 扇 中 心 开 始 ， 并 不 断 对 其 进行 修正 ， 以 更 好 地 适应 数据 。 
-日 中 心 在 数据 上 收敛 ， 数据 集 里 的 点 就 被 分 配给 距 其 最 近 的 中 心 。 

模糊 k-means 算法 是 为 一 个 需要 确定 族 个 数 的 例子 。 它 不 像 k-means 那样 执行 排他 性 聚 类 ,， 模 
糊 k-means 执 行 的 是 可 重 羞 聚 类 。 

2. 和 目 底 向 上 的 方法 : 通过 组 合 ， 将 点 合并 为 簇 

当 你 有 一 个 n 维 点 集 时 ， 可 以 做 两 件 事 : 假设 所 有 的 点 都 属于 同一 个 族 ， 并 不 断 地 将 艇 分 解 
为 更 小 的 秘 ; 或 者 假设 每 个 点 目 己 就 是 一 个 复 , 并 从 代 地 合并 它们 。 前 者 是 一 种 自 顶 向 下 的 方法 ， 
后 者 则 是 一 种 自 底 向 上 的 方法 。 

目 底 回 上 的 聚 类 算法 工作 方式 如 下 : 算法 从 一 个 n 维 空间 内 的 点 集 开始 , 寻找 最 接近 的 点 对 ， 
并 将 它们 合并 为 一 个 禾 ， 如 图 9-9 所 示 。 这 一 合并 仅 在 二 痢 既 离 小 于 特定 立 什 时 执行 。 oe 不 
对 这 些 点 做 任何 操作 。 这 个 根据 距离 合并 秘 的 过 程 会 不 断 ee 直到 没有 可 合并 的 族 


初始 数据 点 轮 迭 代 之 后 形成 的 禾 
2 
和 ~ 
(0, 0) xX 轴 (0, 0) 


图 9-9 ” 自 底 向 上 的 聚 类 : 在 每 一 轮 迭 代 之 后 ， 相 互 靠近 的 簇 会 被 合并 而 产生 越 来 越 大 
的 徐 ， 下 到 在 给 定 的 距离 测度 下 没有 可 以 合并 的 艇 为 止 


3. 目 顶 向 下 的 万 法 : 拆 分 大 族 

在 自 顶 向 下 的 方法 中 , 你 需要 先 将 所 有 点 都 赋 给 同一 个 大 的 簇 。 然 后 你 需要 寻找 最 好 的 拆 分 让 
方式 来 将 这 个 大 的 篮 一 分 为 二 ， 如 图 9-10 所 示 。 基 于 给 定 距 离 测度 标准 ， 反 复 划 分 这 些 复 ， 直 到 
你 得 到 有 意义 的 簇 为 目 。 


初始 族 第 一 轮 迭 代 之 后 形成 的 禾 


7》 轴 
》 轴 


(0, 0) x 四 (0, 0) x 四 
图 9-10 和 目 顶 回 下 的 聚 类 : 在 每 一 轮 闪 代 中 ， 寻 找 最 优 分 割 将 禾 一 分 为 二 ， 直 至 得 到 理想 的 聚 类 结 
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虽然 看 起 来 很 和 商 单 ， 但 要 找到 一 个 zx 维 数据 点 集合 的 最 佳 划 分 并 不 容易。 此 外 ， 大 部 分 此 类 
算法 都 不 能 被 直人 简化 为 MapReduce 的 形式 ， 因 此 目前 Mahout 中 并 没有 包含 这 些 算 法 。 

一 个 自 顶 癌 下 方法 的 例子 是 谱 聚 类 ( spectral clustering )。 在 谱 聚 类 中 ， 我 们 寻找 一 条 分 界线 
或 平面 将 数据 划分 为 两 个 集合 ， 使 得 两 个 集合 的 边界 尽 可 能 大 。 

4. 自 顶 向 下 和 自 底 向 上 方法 的 优 缺 点 

目 顶 癌 下 和 目 底 辐 上 方法 的 族人 之 处 在 于 它们 不 需要 用 户 输入 复 的 数目 。 这 意味 看 对 于 数据 
点 分 布 未 知 的 数据 集 , 这 两 类 算法 都 能 仅仅 基于 相似 性 度量 给 出 聚 类 结果 。 这 在 很 多 应 用 中 都 是 
行 之 有 效 的 。 

然而 ， 这 些 方法 仍然 处 在 研究 当中 ， 而 且 它 们 无 法 以 MapReduce 作 业 的 方式 运行 。Mahonut 
虽然 没有 实现 这 些 方法 ,但 提供 了 其 他 一 些 不 需要 指定 复数 目的 算法 ,它们 能 够 以 MapReduce 作 
业 的 方式 运行 。 

虽然 没有 文 持 MapReduce 的 层次 聚 类 算法 ， 但 我 们 可 以 通过 巧妙 使 用 kmeans 、 模 糊 k-means 
和 狄 利克 雷 聚 类 来 对 其 进行 模拟 。 要 得 到 层次 结构 ， 可 以 从 较 小 的 禾 个 数 (kk) 开始， 并 在 反复 
聚 类 的 过 程 中 不 断 增 大 kj 便 。 另 外 ,你 也 可 以 从 大 量 中 心 开 始 ， 然 后 在 聚 类 的 过 程 中 减 小 k 值 。 这 
样 ， 我 们 充分 利用 Mahout 的 可 扩展 性 ， 模 拟 了 层次 聚 类 的 行为 。 

下 一 六 将 详细 讲解 模糊 k-means 算 法 。 我 们 用 它 来 改善 新 闻 网 站 AllMyNews.com 的 相关 文章 
聚 类 。 


9.3 ”模糊 k-means 聚 类 


顾名思义 , 模糊 k-means 聚 类 算法 是 k-means 聚 类 的 模糊 形式 。 与 kmeans 排 他 性 聚 类 不 同 , 模 
糊 k-means 尝 试 从 数据 集中 生成 有 重 著 的 艇 。 在 人 研究 领域 ,这 也 叫做 模糊 c-means 算法 。 你 可 以 把 
它 看 成 k-means 的 扩展 。 

k-means 致 力 于 寻找 便 复 〈 一 个 点 只 属于 一 个 复 ),， 但 是 模糊 k-means 致力 于 寻找 软 禾 。 在 一 
个 软 肾 类 算法 中 ， 任何 点 都 能 属于 不 止 一 个 艇 ,而 且 该 点 到 这 些 秘 之 间 都 有 一 定 大 小 的 吸引 度 。 
这 种 吸引 上 度 与 该 点 到 这 个 艇 中 心 的 距离 成 比例 。 同 k-means 一 样 ， 模 糊 k-means 也 适用 于 定义 了 距 
离 测 度 的 zx 维 回 量 空间 。 


9.3.1 运行 模糊 k-means 聚 类 


模糊 Kk-means 算 法 可 通过 FuzzvyKMeansClusterer 和 FuzzvKMeansDrivezr 两 个 类 来 使 用 。 
前 者 是 一 个 in-memory 的 实现 ， 后 者 则 使 用 了 MapReduce。 

我 们 来 看 一 个 例子 。 仍 然 使 用 前 面 的 随机 点 发 生 需 来 生成 一 些 二 维 平 面 内 分 散 的 点 。 代 码 清 
单 9-6 用 FuzzyKMeansCluster 展 未 了 in-memory 形 式 的 实现 ， 所 用 参数 如 下 : 

口 输入 Vector 数 据 为 List<Vector> 格 式 ，; 


DD DistanceMeasure 是 EuclideanDistanceMeasure; 


口 收敛 国 值 为 0.01; 
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口 族 个 数 k 为 3; 
口 模糊 参数 ( 该 参数 的 详细 解释 见 9.3.2 节 ) mm 为 3。 


代码 清单 9-6 ”in-memory 形式 的 檬 糊 k-means 聚 类 示例 


public static void FuzzZzyKMeansExample() { 
List<Vector> sampleData = new ArrayList<Vector>{().; 
| 生成 3 个 点 集 
generateSamples{sampleData, 400, 1, 1, 3);， 
generateSamplesisampleData, 300, 1, 0, 0.95); 
generateSampljes (sampleData, 300, 0, 2, 0.1);，; 
int k = 3: 

List<Vector> randomPoints 

= RandomPointsUtil.chooseRandomPoints (sampleData, k). 

List<SoftCluster> clusters = new ArrayList<SoftCluster>{); 

int clusterId = 0; 
for {Vector Vv : randompPoints) 二 

clusters.add (new SoftCluster{v, clusterId+tt+, 
new EuclideanDistanceMeasure!())). 

} 
List<List<SoftCluster>> finalClusters 

= FuzzyKMeansClusterer.clusterPoints (sampleData, 

clusters, new EuclideanDistanceMeasure(}, 
0.01, 3, 10}): 

forl(Softcluster cluster : finalClusters.get! 本 运行 FuzzyKMeansClusterer 

finalClusters.size{() - 1)) 

System.out.println{({"Fuzzy Cluster id: " 
+ Cluster.getId!t) 
+ " Center: " + cluster.getCenter!() .asFormatSstring(}); 读 取 模糊 簇 的 中 心 


} 

Mahout 失 mahout-examples 模 块 中 有 -个 DisplayFuzzyKMeans 类 ， 它 是 一 个 很 好 的 工 
具 ， 可 以 在 二 维 空间 中 将 该 算法 可 视 化 。DisplayFuzzyKMeans 是 一 个 Java Swing 应 用 程序 ， 它 
产生 图 9-11 所 示 的 输出 。 


图 9-11 模糊 k-means 聚 类 : 这 些 秘 看 上 去 是 互相 重合 的 ， 重 车 程度 由 模糊 因子 决定 
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模糊 k-means 的 MapReduce 实 现 

Mahout 中 ， 模 糊 k-means 的 MapReduce 实 现 与 k-means 类 似 。 下 面 是 一 些 主要 参数 。 

口 Vector 格 式 的 输入 数据 集 。 

国 | 用 来 生成 k 个 初始 徐 的 RandomSeedCenerator。 

口 距离 测度 这 里 使 用 squaredEuclideanDistanceMeasure。 

国 | 很 大 的 收敛 国 值 convergdenceThreshola， 例如 -cq 1 .0,， 因为 我 们 准备 用 距离 的 平 
方 值 。 

口 maxIterations 值 ; 我们 准备 用 默认 值 -x 10。 

D 上 归 一 化 系数 ， 或 称 模糊 因子 ， 该 值 大 于 -m 1.0; 我 们 会 在 9.3.2 节 详细 描述 该 参数 。 

可 以 使 用 Mahout 的 启动 器 运行 fkmeans ， 从 而 在 输入 数据 上 做 模糊 k-means 聚 类 : 


$s bin/mahout fkmeans \ 

i reuters-vectors/tfidft-vectors/ -c¢ reuters-ftkmeans-centroids \ 

oO reuters-fkmeans-clusters -cd 1.0 -~-k 21 -m 2 -ow ~X 10\ 
-dm org.apache.mahout.common.distance.SquaredEuclideanDistanceMeasure 


与 k-means 一 样 5 如 果 设 定 了 复 个 数 ( je) 标志 ， 上 UZ zyKMeansDriver 会 目 动 运行 Random- 
SeedGenerator。 生 成 了 随机 中 心 之 后 ,模糊 k-means 内 类 会 用 它们 作为 £ 个 初始 中 心 。 该 算 
法 在 输入 数据 集 上 执行 多 次 迭代 ， 直 到 中 心 收 全 ， 每 轮 迭 代 都 会 在 cluster- 文 件 夹 中 创建 新 的 
输出 文件 。 最 后 , 它 运 行为 一 个 作业 , 依据 距离 参数 和 模糊 参数 ( -m ), 算出 每 一 个 点 属于 各 
个 徐 的 概率 。 

在 详细 讨论 模糊 参数 之 前 ,我们 最 好 先 用 clusterDumper 工 具 看 看 各 个 族 。ClusterDumper 
展示 了 每 个 禾 中 心 的 前 儿 个 词 。 为 了 获得 点 到 复 的 映射 天 系 ， 你 需要 谈 取 clusteredPoints/ 文件 夹 
下 的 sequenceFile。 这 个 序列 文件 中 的 每 个 条 上 日 部 有 一 个 键 ， 它 是 疝 量 的 标识 特 ; 还 包括 一 个 
值 ， 这 个 值 是 一 个 复 中 心 的 列表 ， 每 个 复 中 心 还 对 应 了 一 个 数字 ， 这 个 数字 表示 这 个 点 符合 这 个 
中 心 的 程度 。 


9.3.2 ”多 模糊 会 过 度 吗 


模糊 k-means 有 一 个 参数 m, 叫做 模糊 因子 。 像 kmeans 一 样 , 模糊 k-means 循 环 地 处 理 数据 集 ， 
但 不 是 把 问 量 分 配 到 最 近 的 中 心 ， 而 是 计算 每 个 点 到 每 个 记 的 关联 程度 ( degree of association )。 
假设 有 一 个 向 量 V， 到 K 个 复 中 心 的 距离 分 别 为 四 , d)…, dr。 问 量 (V ) 到 第 一 个 复 (Ci) 的 


关联 度 (wi ) 计算 如 下 : 
条 的 一人 的 
十 | 一 一 十 … 十 | 一 一 
di d; di 


类 似 的 ， 把 分 母 表 达 式 中 的 分 子 d1 瞧 换 为 4;，4; 等 ， 可 以 计算 出 该 癌 量 与 其 他 族 的 关联 度 。 
从 表达 式 中 可 以 很 明显 的 看 出 m 应 该 大 于 1， 否 则 分 母 就 会 是 9， 导致 出 错 。 


Ul 二 
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如 果 你 把 m 设 为 2， 则 对 于 每 个 点 来 说 ， 所 有 关联 度 的 和 为 1。 从 男 一 个 角度 来 看 ， 如 果 m 无 
限 接近 1， 比 如 1.000 001， 越 接近 该 回 量 的 复 中 心 ， 就 越 会 得 到 更 高 的 权重 。 如 果 mm 趋 近 于 1， 模 
糊 k-means 算 法 就 很 接近 k-means 算法 了 。 如 果 m 增 大 ， 会 使 得 算法 的 模糊 度 增 大 ， 因 而 产生 更 多 
香蕉 。 

模糊 k-means 算法 比 标准 k-means 算法 收敛 得 更 好 、 更 快 。 


9.3.3 ”案例 学 习 : 用 模糊 k-means 对 新 闻 进 行 聚 类 


如 有 果 允 许 族 之 间 有 部 分 重 且 ,那么 相关 文章 的 功能 显然 会 更 丰 宦 。 重 车 的 分 从 有 助 于 我 们 获 
得 相关 文章 和 秘 的 关联 性 ， 进 而 对 它们 进行 排序 。 下 面 ， 我 们 修改 9.1.4 届 中 的 学 习 示 例 , 使 用 模 
糊 k-means 算 法 ， 并 查看 模糊 族 的 成 员 信 息 。 


代码 清单 9-7 基于 模糊 k-means 算法 的 新 闻 取 类 


Public class NewsFuZZyKMeansClustering 1{ 


Public static voiqd mainl{(String args[]}) throws Exception 1 
String vectorsFolder = outputDir + "/tfidf-vectors'"; 
String canopyCentroids = outputDir + "/canopy-centroids'",; 
String clusterOutput = outputDir + "/clusters/'"; 
CanopyDriver.runlconft, new Path(vectorsFolder), new Patht | 
canopyCentroids), new ManhattanDistanceMeasure(), 3000.0,， 生成 作业 
2000.0, false, false): 
FuZZyKMeansDriver.runlconf, new Path(vectorsFolder)}, new Patht 
CanopyCentroigds, "clusters-0"), new Path(clusterOutput), 
new TanimotoDistanceMeasure()}, 0.01, 20, 2.0f, true, true, 0.0, 
false).; 
| 运行 模糊 k-means 
SegquenceFile.Reader reader = new SequenceFile.Reader (fs, 聚 类 
new Path(iclusterOutput + Cluster.CLUSTERED POINTS DIR 
+ "/Part-m-00000"), conf).; 
Intwritable key = new IntWritable().; 从 输出 中 读 
WeightedVectorWwWritable value = new WeightedVectorWritable!(); 取 映 射 关 系 
while (reader.next (key, wvalue)) { 
System,.out,.pPrintiln("Cluster: " + key.toString!{) 
+ " "+ value.getVector{() .asFormatString()).,; < 二 
// 编写 代 而 以 保存 族 映 射 到 数据 库 
} 入 全 se 
reader.close().; 打印 族 和 概率 


) 

模糊 k-means 算法 给 我 们 提供 了 一 种 改善 相关 文章 代码 的 途径 。 现 在 我 们 可 以 知道 一 个 后 在 
多 大 程度 上 与 一 个 族 相 关 。 有 了 这 个 信息 ,我 们 就 能 找到 最 相关 的 艇 ,并 且 根 据 相 关 程 度 确定 相 
天 文章 的 市 权 分 值 。 我 们 用 这 种 方式 避免 了 排他 性 聚 类 过 于 严格 的 限制 , 并 且 可 以 为 处 于 艇 边缘 
的 文档 识别 出 更 好 的 相关 文章 。 
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9.4 基于 模型 的 聚 类 


在 本 章 中 ， 聚 类 算法 的 复杂 性 逐渐 提高 。 前 面 我 们 从 kmeans 入 手 了 解 了 聚 类 算法 。 接 着 讨论 了 
模糊 kmeans 产 生 的 部 分 从 属 关系 。 我 们 还 介绍 了 如 何 通 过 中 心 点 生成 算法 来 优化 聚 类 , 如 canopy 聚 类 。 

关于 这 些 聚 类 算法 , 我 们 还 想 知道 些 什 么 呢 ? 为 了 更 好 地 认识 数据 内 在 的 组 织 结构 ,我 们 需 
要 一 个 与 前 面 完全 不 同 的 方法 一 一 基于 模型 的 聚 类 。 

在 我 们 介绍 基于 模型 的 聚 类 算法 之 前 , 我 们 要 先 了 解 一 下 k-means 和 其 他 相关 算法 存在 的 问题 。 
这 一 市 我 们 要 使 用 狄 利 克 雷 过 程 内 类 ( Dirichlet process clustering ) 来 解决 这 些 问题 。 但 是 ， 为 了 理 
解 它 , 你 首先 页 知道 它 解决 的 是 什么 问题 , 我 们 会 把 它 和 其 他 你 之 前 看 到 的 算法 做 一 些 比较 。 下 面 
我 们 就 看 看 什么 是 kmeans 算 法 所 不 能 做 的 ， 然 后 了 解 狄 利克 雷 过 程 聚 类 如 何 解 决 这 个 问题 。 


9.4.1 k-means 的 不 足 


假定 你 要 把 一 个 数据 集聚 类 成 ki 修复 。 现 在 你 已 经 知道 如 何 运行 kmeans 并 快速 得 到 这 些 禾 。 
为 k-mean 可 以 基于 线性 距离 轻松 地 划分 艇 ， 它 的 性 能 一 般 都 不 错 。 

如 果 你 知道 这 些 族 都 满足 正 态 分 布 , 并 有 晶 相 互 混合 与 重 车 在 一 起 , 该 怎么 办 呢 ? 这 样 的 话 你 
最 好 是 使 用 模糊 k-means 聚 类 。 

如 末 各 个 禾 不 是 正 态 分 布 呢 ? 如 果 这 些 复 呈 卵 形 分 布 呢 ? 无 论 kmeans 还 是 模糊 k-means 都 
无 法 利用 这 个 信息 来 改进 聚 类 过 程 。 在 我 们 探讨 怎么 解决 这 个 问题 之 前 ， 先 来 看 一 个 例子 ,在 这 
个 例子 中 kmeans 聚 类 无 法 摘 述 数据 的 简单 分 布 。 

1. 非 对 称 正 态 分 布 

你 将 在 一 个 按 非 对 称 正 态 分 布 生成 的 点 集 上 运行 kmeans 聚 类 。 这 意味 着 数据 点 发 生 带 产生 的 禾 
在 不 同方 回 上 有 看 不 同 的 方差 ， 不 像 之 前 那样 点 都 集中 在 中 心 附近 的 圆 形 区 域内 ， 而 是 会 形成 一 个 
以 这 个 点 为 中 心 的 椭圆 形 区 域 。 下 面 ， 我 们 将 在 这 些 数 据 上 以 in-memory 的 形式 运行 kmeans 的 实现 。 

图 9-12 显 示 了 椭圆 形 分 布 〈 或 称 非 对 称 分 布 ) 的 数据 点 ， 以 及 由 k-means 产生 的 各 个 秘 。 很 
明显 ，k-means 并 不 能 挖掘 出 这 些 点 的 真实 分 布 情况 。 


儿 9-12 ”在 非 对 称 正 态 分 布 的 点 集 上 运行 Kmeans 聚 类 。 这 些 点 分 布 在 一 个 椭圆 区 域 而 
不 是 一 个 圆 形 区 域 。k<means 没 能 给 出 理想 的 结果 
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k-means 的 男 一 个 问题 是 你 需要 估计 kx， 即 中 心 个 数 ， 而 这 个 参数 通 沼 都 会 被 估计 得 过 局。 找 
到 最 优 的 k 值 并 不 容易 ， 除 非 你 对 数据 有 一 个 很 明确 的 移 验 知识 ， 但 这 种 情况 很 少见 。 即 使 是 做 
canopy 生 成 ， 你 也 需要 在 距离 测度 方面 进行 调 优 ， 使 得 算法 可 以 改善 对 k 值 的 估计 。 

要 是 有 一 种 更 好 的 方式 来 确定 艇 个 数 ， 会 怎么 样 呢 ? 这 就 是 基于 模型 的 聚 类 方法 的 用 武之 地 。 

2. 对 真实 数据 进行 聚 类 所 存在 的 问题 

假设 我 们 想 基 于 一 群 人 对 电影 的 辟 好 来 对 他 们 进行 聚 类 , 以 找 出 有 共同 爱好 的 人 。 我 们 可 以 
统计 电影 的 风格 ， 以 此 来 估计 这 群 人 中 的 复 个 数 。 

我 们 找到 的 族 可 能 有 : 喜欢 动作 片 的 人 、 豆 欢 浪 提 电 影 的 人 、 豆 欢 豆 剧 的 人 等 。 但 这 并 不 
理想 ， 因 为 可 能 会 有 很 多 例外 情况 。 例 如 ， 有 一 组 人 只 豆 欢 犯罪 片 ， 而 不 喜欢 其 他 动作 片 。 他 
们 就 在 动作 片 敌 中 形成 了 一 个 子 艇 。 在 族 的 混合 如 此 复杂 的 悄 帝 下 ， 我们 无 法 得 到 这 个 小 族 的 
言 县 ， 因 为 它们 通关 和 神 床 没 在 了 大 的 复 中 。 唯 一 的 解决 办 法 是 预 匈 知道 人 们 对 电影 喜好 的 内 在 
层次 结构 。 

如 末 我 们 预先 知道 这 个 情况 , 就 可 以 通过 层次 肾 类 方法 来 得 到 更 好 的 聚 类 效果 。 但 是 这 类 方 
法 不 能 涵盖 有 下 合 的 情况 。 我们 现在 看 到 的 所 有 只 类 算法 部 不 能 同时 处理 既 有 和 草 合 、 又 有 层次 结 
构 的 情况 。 那 么 我 们 应 该 怎么 处 理 这 类 问题 呢 ? 

这 是 邦 一 个 可 以 通过 基于 模型 的 聚 类 方法 解决 的 问题 。 


9.4.2 ” 狄 利克 雷 聚 类 


Mahout 中 有 一 个 基于 模型 的 聚 类 算法 : 狄 利克 和 雷 聚 类 ( Dirichlet clustering )。 狄 利 死 雷 
( Dirichlet ) 这 个 名 字 指 代 一 类 概率 分 布 ， 它 是 德国 数学 家 Johann Peter Gustav Lejeune Dirichlet 定 
义 的 。 狄 利克 雷 聚 类 算法 是 一 种 基于 狄 利克 雷 分 布 的 混合 建 模 方法 。 

如 果 对 狄 利 元 和 雷 分 布 没 有 一 个 深入 了 解 的 话 ， 这 个 过 程 听 起 来 很 复杂 , 但 它 的 思想 其 实 很 简 
单 。 假设 你 的 数据 点 集中 在 一 个 类 似 圆 形 的 区 域内 ,它们 在 其 中 呈 均 匀 分 布 , 你 也 有 一 个 描述 该 
分 布 的 模型 。 你 可 以 谈 和 人 数据, 并 计算 该 模型 与 数据 相 吻 合 程度 ,从 而 验证 你 的 数据 是 否 符合 这 
种 模型 。 

该 方法 可 以 在 一 定 程度 上 目 信 地 告诉 你 说 这 些 点 聚集 的 区 域 看 起 来 像 是 圆 形 的 分 布 , 也 可 以 
说 这 个 区 域 看 起 来 不 像 是 三 角形 分 布 ( 男 一 个 模型 )， 因 为 这 些 数据 与 三 角形 的 吻合 度 太 低 。 如 
有 果 你 找到 一 种 拟 合 方式 ， 也 就 知道 了 数据 的 结构 。 图 9-13 曾 明了 这 一 观点 。( 注意 这 里 用 到 的 
和 三 角形 仅仅 是 为 了 算法 的 可 视 化 。 不 要 把 它们 误 当 做 真实 的 概率 模型 。) 

狄 利 元 和 雷 聚 类 算法 在 Mahout 中 被 实现 为 贝 叶 斯 聚 类 算法 。 这 就 意味 看 , 这 个 算法 不 仅仅 是 给 
出 数据 的 一 个 解释 ， 而 是 给 出 很 多 解释 。 就 好 比 说 , “区 域 A 像 一 个 贺 ， 区 域 B 像 一 个 三 角形 ， 区 
域 A 和 B 合 起 来 像 一 个 多 边 形 ” 和 等 。 实 际 上 ， 每 个 区 域 都 是 一 个 统计 分 布 ， 就 像 你 在 本 草 前 面 看 
到 的 正 态 分 布 一 样 。 

我 们 接 下 来 会 见 到 各 种 各 样 的 模型 分 布 , 但 对 它们 的 深入 讲解 超出 了 本 书 的 范畴 。 我 们 还 是 
和 爷 看 看 Mahout 中 的 狄 利克 雷 聚 类 算法 是 怎么 工作 的 吧 。 
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选择 了 错误 的 模型 选择 了 正确 的 模型 


el 


(9, 0) x 四 (0, 0) xX 四 


图 9-13” 狄 利 殉 雷 肾 类 : 这 些 模 型 尺 最 大 可 能 去 拟 合 给 定 的 数据 集 。 右 边 的 模型 要 
更 好 一 些 ， 它 显示 出 了 在 这 个 模型 下 数据 集中 的 复 个 数 


理解 狄 利 克 雷 聚 类 算法 

狄 利克 雷 聚 类 的 初始 状态 是 一 个 数据 点 的 集合 以 及 一 个 ModqelDistribution。 可 以 把 
ModelDistribution 看 成 是 一 个 生成 不 同 模 型 的 类 。 你 会 创建 一 个 空 的 模型 ， 并 尝试 将 点 分 配 
给 它 。 然 后 ， 模 型 粗略 地 上 下 调整 其 参数 ， 试 着 去 拟 合 数据 。 当 所 有 点 上 的 拟 合 都 完成 之 后 ， 它 
会 基于 所 有 数据 点 以 及 点 属于 该 模型 的 局 部 概率 来 精确 地 重新 估计 出 模型 参数 。 

在 每 个 步骤 未 尾 ， 你 将 得 到 一 定数 量 的 样本 ， 其 中 包括 概率 、 模 型 、 点 到 模型 的 分 配 关 系 。 
这 些 样本 可 以 被 视 为 徐 ， 它 们 提供 了 有 关 模 型 及 其 参数 的 信息 ， 例 如 它们 的 形状 和 大 小 。 男 外 ， 
通过 检查 样本 中 被 分 配 有 数据 点 的 模型 个 数 ， 你 可 以 知道 数据 支持 多 少 个 模型 ( 篮 )。 还 有 ， 检 
查 两 个 点 分 配给 同一 个 模型 的 概率 , 你 可 以 知道 它们 用 同一 模型 表示 时 的 相似 度 。 这 种 软 从 属 信 
息 是 使 用 模型 聚 类 的 一 个 副产品 。 狄 利克 雷 聚 类 能 够 捕获 到 数据 点 属于 多 个 模型 的 局 部 概率 。 


9.4.3 ”基于 模型 的 聚 类 示例 


基于 狄 利克 雷 过 程 聚 类 的 in-memory 版 本 在 Dirichletclusterer 类 中 实现 ， 而 MapReduce 
作业 的 版 本 在 DirichletDrivez 类 中 实现 。 我 们 将 使 用 generateSsamples 国 数 (之 前 在 9.1.2 
廊 用 过 ) 生成 随机 回 量 。 

该 狄 利克 雷 聚 类 实现 非常 通用 ,可 用 于 各 种 分 布 及 数据 类 型 。 不 过 ，Mahout 中 的 Model1 实 现 
使 用 了 Vectorwritable 类 型 ， 所 以 在 我 们 的 聚 类 代码 中 把 它 作 为 默认 类 型 。 

我 们 用 如 下 参数 运行 狄 利克 雷 聚 类 . 

口 输入 Vector 数 据 以 List<Vectorwritable> 形 式 表示 : 

国 | 我 们 将 数据 拟 合 为 CaussianClusterDistribution 模 型 分 布 : 

口 狄 利克 备 分 布 的 alpha 值 为 1.0; 

口 初始 模型 数目 (numModels ) 是 10; 

口 Thin 和 jpburn 间 隔 都 是 2。 


7 轴 
》 轴 
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数据 点 会 分 敬 到 一 个 指定 中 心 的 周围 ， 类 似 于 正 态 分 布 ， 如 下 述 代 码 清单 所 示 。 
代码 清单 9-8 ”对 服从 正 态 分 布 的 数据 进行 狄 利 元 雷 肾 类 


List<VectorwWritable> sampleData = new ArrayList<VectorWritable>!{)}. 


generateSampleslsampleData, 400, 1, 1, 3); | 

i 生成 3 个 点 集 
generateSamples(samleData, 300, 1, 0, 0.5);: MA 
generateSamples (sampleData, 300, 0, 2, ， 


DirichletClusterer dc = 


new DirichletClusterer!t 
samopoleData, 
new GaussianClusterDistrilbutiont 
new VectorWritable{(new DenseVector (2))) ， 


1.0, 10, 2, 2); _ | 运行 狼 利克 雷 聚 类 程序 


Tist<Cluster[l> result = do.cluster(20); 

在 代码 清单 9-8 中 ， 我 们 按照 正 态 分 布 生成 了 一 些 样本 点 ， 并 尝试 使 用 正 态 ( 高 斯 ) 分 布 拟 
合 数 据 。 算 法 的 参数 决定 了 收敛 的 速度 和 质量 。 

这 里 ,alpha 是 平滑 因子 。 值 越 大 柑 型 的 收敛 速度 越 慢 ， 所 以 聚 类 会 有 多 次 迭代 ,并 且 可 能 在 
这 些 模型 上 拟 合 过 (模型 会 答 试 在 较 小 的 范围 内 拟 合 数据 分 布 , 即 使 拟 合 了 较 大 范围 的 模型 正 是 
我 们 想 要 的 )。 较 小 的 alpha 值 会 使 得 聚 类 过 程 中 模型 的 合并 更 快 ， 这 样 就 会 导致 模型 从 拟 合 〈 将 
来 目 两 个 不 同 分 布 的 数据 点 拟 合 为 一 个 模型 )。 

Thin 和 burn 间 隔 用 于 降低 聚 类 中 内 存 的 使 用 率 。Burn 参 数 指定 要 做 多 少 次 迭代 才 保 存 第 一 
组 模型 。Thin 参 数 指定 每 次 保存 这 种 模型 配置 之 间 要 忽略 多 少 次 迭代 。 因 为 需要 多 次 迭代 才能 
收 人 钱 ， 初始 状态 没有 进一步 的 利用 价值 。 在 初始 化 阶段 ， 模 型 数量 比较 大 ,它们 并 不 生成 实际 数 
据 ， 所 以 我 们 可 以 忽略 它们 (通过 thin 和 burn ) 以 市 省 内 存 。 

用 DisplayDirichlet 聚 类 算法 得 到 的 最 终 状 态 如 图 9-14 所 示 。 这 个 类 放 在 Mahout 的 


examples 文 件 夹 中 ， 该 文件 夹 中 也 有 许多 其 他 的 模型 分 布 及 其 聚 类 算法 的 例子 。 


IE 


图 9-14 使 用 pisplayDirichlet 类 对 正 态 分 布 进行 狄 利克 雷 聚 类 ， 该 类 在 
Mahout 的 examples 文 件 夹 中 
这 里 的 聚 类 算法 和 9.2 节 的 kmeans 聚 类 算法 不 同 。 狄 利克 雷 聚 类 可 以 做 一 些 k-means 做 不 了 的 
事情 ， 比 如 可 以 精确 定位 我 们 生成 的 3 个 复 。 其 他 算法 只 能 找到 重 登 或 者 层次 化 的 禾 。 
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这 只 是 冰山 一 角 。 为 了 展示 基于 模型 的 聚 类 的 魔力 , 我 们 用 一 个 比 正 态 分 布 更 加 复杂 的 例子 
来 说 明 。 

1. 非 对 称 正 态 分 布 

当 数 据点 在 不 同 维度 的 标准 差 不 相 等 时 , 称 正 态 分 布 为 非 对 称 的 。 这 使 得 数据 呈 椭 圆 形 分 布 。 
当 你 在 这 个 9.4.1 节 的 数据 分 布 上 做 k-means 聚 类 时 ， 效 果 会 很 差 。 现 在 你 可 以 在 同样 的 数据 集 上 
用 GaussianclusterDistzribution 完 成 狄 利克 雷 聚 类 ， 这 里 在 x 和 y 轴 上 使 用 的 参数 不 同 。 

你 可 以 使 用 非 对 称 征 态 分 布 模型 执行 犹 利克 和 雷 聚 类 , 这 里 二 维 平面 内 x 和 y 方 向 上 的 标准 差 不 
同 。 聚 类 结 采 见 图 9-15。 


图 9-15” 非 对 称 正 态 分 布 的 狄 利克 雷 聚 类 算法 ， 所 用 DisplayDirichlet 类 的 代码 在 Mahout 的 
examples 文 件 夹 下 。 粗 椭圆 表示 最 终 状 态 ， 细 线 表示 之 前 的 迭代 过 程 


尽管 生成 的 禾 个 数 变 多 了 , 基于 模型 的 聚 关 方法 能 够 找到 非 对 称 的 梗 型, 并且 相 比 起 其 他 算 
法 能 够 更 好 地 在 数据 上 拟 合 模型 。 使 用 较 好 的 alpha 值 也 许可 以 让 结果 得 到 改善 。 

下 面 ， 我 们 要 尝试 MapReduce 版 的 狄 利 克 雷 聚 类 ，。 

2. MapReduce 版 的 狄 利克 雷 聚 类 

就 像 Mahout 中 的 其 他 实现 一 样 ， 狄 利 元 和 雷 肾 类 专注 于 处 理 海量 数据 集 。 狄 利 元 和 雷 肾 类 的 
MapReduce 版 本 是 在 DirichletDriver 类 中 实现 的 。 狄 利克 雷 作 业 可 以 通过 命令 行 方式 在 
Reuters 数 据 集 上 执行 。 

下 面 我 们 看 看 如 何 通过 MapReduce 作 业 完 成 狄 利 克 雷 聚 类 : 

口 Reuters 数 据 集 为 Vector 形式 ; 

国 | 默认 的 模型 分 布 类 ( -mad ) 为 GaussianClusterDistribution: 

| 在 这 个 作业 中 ， 创建 的 所 有 问 量 的 Vector 类 的 默认 类 型 是 sequentialAccessSparse- 

Vector ; 

口 该 分 布 的 alpha0 值 应 该 被 设 为 -a0 1.0; 

口 初始 族 数 量 为 -k 60; 

口 算法 的 迭代 次 数 为 -x 10。 

在 这 个 数据 集 上 通过 Mahout 启 动 带 中 的 dirichlet 程 序 运行 该 算法 的 过 程 如 下 : 
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$s bin/mahout QIrlichlet 

-i reuters-vectors/tfidf-vectors A 

oo reuters-dirichlet-clusters -Kk 60 -x 10 -a0 1.0 \ 

-md org.apache.mahout.clustering.dirichlet.models.GaussianClusterDistribution \ 


-mp org.apache.mahout.math.SequentialAccessSparseVector 

犹 利克 雷 聚 类 的 每 轮 迭 代 之 后 ， 作 业 把 状态 写 到 输出 文件 夹 下 的 子 文件 夹 中 ， 命 名 形式 为 
state-*。 你 可 以 用 seqenceFile 读 取 程 序 读 取 它们 , 并 且 找 到 每 个 模型 的 中 心 点 和 标准 差 。 由 此 ， 
你 可 以 在 聚 类 的 最 后 阶段 将 问 量 分 配 到 各 个 族 。 

当 已 知 数据 分 布 模 型 时 ， 狄 利克 和 雷 肾 类 是 一 个 获得 蝇 质 量 族 的 有 力 方 式 。 在 Mahout 中 ， 这 个 
算法 是 一 个 可 定制 的 框架 , 很 容易 创建 并 测试 不 同 的 模型 。 随 着 模型 变 得 更 加 复杂 , 处 理 海量 数据 
的 进程 会 减缓 , 所 以 , 在 这 种 情况 下 ,你 束 要 考虑 其 他 凤 类 算法 了 。 但 是 通过 观 内 狄 利克 雷 聚 类 算 
法 的 输出 , 你 可 以 决定 我 们 应 该 选择 模糊 还 是 严格 、 重 苔 还 是 层次 化 的 艇 ,距离 测度 选 曼 哈 顿 还 是 
余弦 ， 收 敛 的 国 值 是 多 少 。 狄 利克 雷 聚 类 既是 一 个 数据 分 析 工 具 ， 也 是 一 个 有 力 的 聚 类 工具 。 


9.5 ”用 LDA 进行 话题 建 模 


到 目前 为 止 , 我 们 一 下 把 文件 看 成 词 项 的 集合 ,并 给 每 个 词 项 赋予 一 定 的 权重 。 在 实际 生活 
中 ,我们 把 新 闻 文 革 或 者 其 他 文本 文件 看 成 一 系列 的 话题 集合 。 这 些 话题 本 质 上 是 非常 模糊 的 。 
少数 情况 下 ， 其 至 是 有 上 收 义 的 。 通 常 ， 当 我 们 读 一 段 文 学 时 ， 会 把 它 和 一 系列 话题 联系 在 一 起 。 
如 果 有 人 问 :“ 这 篇 新 闻 讲 的 是 什么 ”” 我 们 很 卓然 地 会 说 “这 讲 的 是 美国 的 反 恕 战 争 ” 之 类 的 
话 ， 而 不 是 简单 地 把 我 们 在 文中 看 到 的 词 列 出 来 。 

考虑 一 个 话题 ， 如 狗 。 关 于 这 个 话题 有 很 多 文字 描述 ,分别 是 在 说 不 同 的 事情 。 在 这 些 文档 
中 最 第 出 现 的 词 也 许 是 dog ( 狗 )、woof ( 低 呐 声 )、puppy (小 狗 )、bark( 狗 员 )、bow ( 马 腰 )、 
chase( 追赶 )、loyal ( 忠诚 ) 以 及 friend (朋友 ) 等 。 有 一 些 词 ， 如 bow (号 腰 ) 和 bark( 狗 呐 ) 
是 有 歧义 的 ， 因 为 它们 也 会 出 现在 其 他 话题 中 ， 如 号 〈bow ) 和 入 (arrow )， 或 者 一 棵 树 的 树 皮 
(bark ) 等 。 但 是 ， 我 们 可 以 说 上 述 这 些 出 现在 “ 独 ” 这 个 话题 的 词 中 有 些 词 出 现 的 概率 比 其 他 
词 要 大 。 类 似 地 ,一 个 有 关 “ 猎 ”的 话题 中 ,诸如 cat ( 猫 )、kitten (小 猫 昧 )、meow( 嘴 )、purr 
( 猫 的 呼噜 声 ) 和 furball ( 毛 绒 球 ) 等 词 就 会 频繁 出 现 。 图 9-16 给 出 了 一 些 看 到 一 由 有关 狗 或 猫 的 
图 画 之 后 人 们 心中 会 想起 的 词 。 


loyal purr Meow 
dog 
woof Wag cat 
cuddle 
fish 
bark | 
stay kitten 


Vw) 


图 9-16 ” 猫 狗 话题 以 及 其 中 频繁 出 现 的 词 
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如 末 要 我 们 在 特定 的 文档 集中 找 出 这 些 话题 的 话 ， 百 党 上 肯定 会 用 聚 类 思想 。 我 们 妥 调 整 聚 
类 算法 的 代码 , 让 它 用 在 词语 咎 量 而 不 是 之 前 用 的 文档 向 量 上 。 这 里 的 词语 向量 是 指 每 个 词 对 应 
一 个 向 量 ， 其 特征 是 语料库 中 与 这 个 词 共 现 的 其 他 词 的 D， 权重 则 是 它们 一 起 出 现 的 文档 数目 。 

一 旦 我 们 有 了 这 个 回 量 ， 就 可 以 运行 聚 类 算法 了 ,， 找 出 词语 的 族 ， 并 将 其 称 为 话题 。 尽 管 这 
看 起 来 很 简单 ， 但 生成 词语 向 量 的 工作 量 相当 大 。 我 们 可 以 把 一 起 出 现 的 词语 归 类 为 一 个 话题 ， 
然后 计算 词 霹 在 每 个 话题 中 出 现 的 概率 。 

次 在 犹 利克 和 雷 分 析 (LDA ) 能 做 的 不 仅仅 是 聚 关 。 如 采 两 个 词 的 意思 或 者 形式 相同 ,但 是 它 
们 并 不 一 起 出 现 ， 聚 类 也 不 能 基于 其 他 的 实例 把 它们 关联 起 来 。 这 就 正 是 LDA 大 显 号 于 的 地 方 。 
LDA 能 够 根据 词语 出 现 的 方式 来 判断 ,指出 哪些 有 相同 的 意思 ,或 者 被 用 在 相同 的 上 下 文中 。 这 
类 词语 集合 可 被 视 为 概念 或 者 话题 。 

现在 ,我 们 扩展 一 下 这 个 问题 。 假 设 我 们 有 一 系列 观测 结 灯 (文档 以 及 文档 中 的 词 ) 我 们 
能 根据 特征 (话题 ) 找 出 隐藏 的 分 组 中? LDA 可 以 非常 高 效 地 对 特征 进行 分 组 或 找到 话题 。 


9.5.1 理解 LDA 

LDA 是 一 个 和 狄 利 殉 雷 肾 类 类 似 的 生成 式 模 型 。 前 完 ， 从 一 个 已 知 的 模型 开始 ,然后 通过 调 
整 参 数 , 在 数据 上 拟 合 模型 。 LDA 假 设 整 个 语料库 中 有 k 个 话题 , 并 且 每 个 文档 都 涉及 这 K 个 话题 。 
此 ， 文 档 就 可 以 看 成 不 同 概率 的 话题 的 混合 体 。 


注意 机 器 学 习 算 法 分 成 两 类 一 一 生成 式 ( generative ) 和 判别 式 (discriminative )。 像 k-means 
和 层次 聚 类 这 类 算法 ， 就 是 基于 距离 测度 ， 把 数据 划分 成 k 个 组 ， 这 种 方法 通常 叫做 判别 
式 方 法 。 判 别 式 方法 的 一 个 例子 是 SVM 分 类 ， 你 将 在 本 书 第 三 部 分 学 习 。 在 狄 利克 雷 聚 
类 中 ， 模 型 会 对 数据 进行 拟 合 ， 仅 仅 通 过 这 些 模型 的 参数 ， 你 就 能 生成 拟 合 模 型 用 的 数 
据 。 因 此 ， 这 个 叫做 生成 式 模型 。 


LDA 比 标准 聚 类 方法 更 加 强大 的 地 方 在 于 它 既 能 把 单词 聚 类 成 话题 ,也 能 把 文档 聚 成 多 个 话 
题 的 混合 体 。 假 设 有 一 篇 关于 奥运 会 的 文章 ,包括 “金牌 ”“ 奖 牌 ”“ 跑 步 “冲刺 ”这 些 词 ; 为 
一 篇 文章 描述 了 亚运 会 的 百 米 冲刺 , 包括 “ 讽 军 “金牌” “冲刺 ”这 些 词 。LDA 可 以 推断 出 一 个 
模型 , 其 中 第 一 篇 文章 与 两 个 话题 都 有 关 , 其 中 一 个 讨论 体育 运动 , 包括 “和 冠军 ” “金牌 ” “奖牌 ” 
等 关键 词 ; 为 外 一 个 讨论 百 米 冲刺 ， 其 中 包括 像 “ 跑 ”和 “冲刺 ”这 类 关键 词 。LDA 能 得 出 每 个 
话题 产生 不 同文 档 的 可 能 性 。 这 些 话题 本 号 就 是 这 些 词 的 分 布 , 所 以 “ 跑 ” 这 个 词 出 现在 “体育 
运动 ”这 个 话题 中 的 概率 比 出 现在 “ 百 米 冲刺 ”这 个 话题 中 的 概率 要 低 一 些 。 

LDA 算 法 和 狄 利克 雷 聚 类 工作 方式 类 似 。 它 首先 创建 一 个 空 的 主题 模型 , 在 mapper 阶 段 并 行 
读 取 文档 ， 然 后 在 文档 中 为 每 个 单词 计算 每 个 主题 的 概率 。 人 然后， 概率 就 会 被 发 送 给 reducer， 
reducer 会 将 这 些 概率 相 加 并 归 一 化 。 上述 过 程 一 下 重复 百 到 模型 能 够 更 好 地 表达 这 些 文档 一 一 当 
概率 〈 取 对 数 ) 的 和 不 再 变化 为 止 。 变 化 程度 是 通过 收敛 国 值 参数 设 定 的 ， 和 Kk-means 聚 类 的 国 
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值 一 梓 。LDA 评 信和 模型 和 数据 的 拟 合 程度 ， 而 不 是 测试 中 心 点 的 相对 变化 值 。 如 来 似 然 值 的 变化 
小 于 这 个 国 值 ， 则 迭代 俘 止 。 


9.5.2 对比 TF-IDF 与 LDA 


对 文档 进行 聚 类 时 ， 我 们 用 TF-IDEF 单 词 权重 来 找 出 一 个 文档 中 重要 的 单词 。TF-IDF 有 一 个 
缺陷 ， 它 不 能 识别 共同 出 现 的 单词 或 者 它们 之 间 的 关系 ， 如 Coca 和 Cola。 并 且 ，TF-IDF 不 能 通过 
单词 的 出 现 和 分 布 找 出 这 些 单 词 之 间 的 微妙 关系 。LDA 可 以 以 单词 频率 为 输入 , 找 出 它们 之 间 的 
关系 ， 所 以 算法 的 输入 应 该 是 词 频 向 量 ， 而 不 是 TF-IDF 疝 量 。 


9.5.3 LDA 参数 调 优 


在 运行 Mahout 中 的 LDA 实 现 之 前 ， 你 需要 理解 LDA 中 影响 运行 时 间 和 质量 的 两 个 参数 。 

第 一 个 是 话题 数目 。 就 像 k-means 中 的 k 个 中 心 ， 你 需要 基于 现 有 数据 确定 话题 数目 。 如 果 话 
题 数 较 少 ， 就 会 得 到 更 宽泛 的 话题 ， 如 科学 、 运 动 、 政 治 ， 这 些 筑 沁 的 话题 会 在 并 其 子 话题 中 的 
单词 。 如 条 话 题 数 目 较 多 ， 每 个 话题 就 会 更 为 专注 或 者 小 众 ， 如 量子 力学 和 反射 定律 。 

话题 数目 较 多 也 意味 着 算法 需要 更 长 时 间 评 佑 所 有 话题 的 单词 分 布 。 这 会 严重 影 啊 性 能 。 根 
据 经 验 ， 最 好 是 具体 问题 具体 分 析 。Mahout 的 LDA 是 MapReduce 作 业 的 形式 实现 的 , 所 以 它 能 运 
行 在 一 个 大 的 Hadoop 集 群 上 。 你 可 以 通过 添加 工作 市 点 达到 加 速 的 效果 。 

第 二 个 参数 是 单词 的 个 数 ， 也 就 是 癌 量 的 维 数 。 这 决定 了 LDA 的 mapper 中 所 用 矩阵 的 大 小 。 
Mapper 创 建 一 个 和 矩阵， 其 大 小 为 话题 个 数 乘 以 文档 长 度 (文档 中 的 单词 或 特征 的 数目 )。 

如 果 你 需要 加 速 LDA, 除了 可 以 降低 话题 数目 外 , 还 可 以 让 特征 数目 最 小 化 , 但 是 如 果 你 需 
要 找到 所 有 话题 中 所 有 单词 的 概率 分 布 , 你 还 是 别 动 这 个 参数 了 。 如 采 你 只 对 语料库 中 的 某 些 关 
键 字 感 兴趣 ， 你 可 以 在 创建 向 量 的 过 程 中 剔除 高 频 词 汇 。 

你 可 以 在 基于 词典 的 癌 量 模型 中 降低 maximum-document-frequency 比例 参数 ( --maxDF- 
Percent )， 厂 取 值 为 79， 则 会 把 在 70% 文 档 中 都 会 出 现 的 单词 吻 挥 。 


9.5.4 ”案例 学 习 : 寻找 新 闻 文档 中 的 话题 


我 们 将 在 Reuters 数 据 集 上 运行 Mahout 中 的 LDA。 前 先 ， 我 们 运行 词典 向 量化 程序 ， 创 建 TF 
器 量 ， 然 后 把 它们 用 作 LDADriver 的 输入 。 删 除 高 频 词汇 以 加 速 计算 过 程 。 在 本 例 中 ， 我 们 要 从 
Reuter 回 量 中 提取 10 个 话题 。 

LDADriver 入 口哨 数 需 要 以 下 参数 : 

口 包含 vectors 的 输入 目录 ; 

口 每 轮 友 代 之 后 写 人 LDA 状 态 的 输出 目录 ; 

D 模型 的 话题 数目 ，-k 10; 

口 语料库 中 的 特征 数量 ，-v; 

口 话题 平滑 参数 ，-a ( 默认 值 为 50/ 话 题 数 ); 
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口 最 大 迭 代 次 数 限 制 ，-x 20。 
语料库 中 的 特征 数 ( -v ) 可 以 通过 统计 vectorizer 文 件 夹 下 词典 文件 中 的 条 目 数 得 到 。 我 们 可 
以 用 SequenceFileDumpez 找 到 词典 条 目 数 ， 前 面 第 8 昔 有 介绍 。 我 们 可 以 在 命令 行 中 运行 LDA 
算法 : 
$s bin/mahout lda \ 
i reuters-vectors/tf-vectors \ 


oo reuters-lda-sparse \ 
-k 10 -vv 7000 -x 20 -ow 


LDA 会 迭代 20 次 , 或 者 在 收敛 时 就 停止 下 来 。 每 次 迭代 之 后 模型 的 状态 就 会 锐 号 人 输出 目录 
中 以 state- 开 头 的 文件 夹 内 。 
Mahout 的 mahout-utils 模 块 有 一 个 该 取 LDA 输 出 的 工具 , 用 于 从 输出 状态 目录 中 该 取 话 题 
和 单词 概率 。LDAPrintTopics 是 该 工具 的 主人 口 函 数 。 你 可 以 查看 任何 一 轮 迭 代 的 输出 ， 以 下 
显示 每 个 话题 的 前 5 个 单词 : 
$s bin/mahout org.apache.mahout.clustering.l1da.LDAPrintTopics \ 
1 reuters~lda-sparse/state-20/ \ 


d reuters-vectors/dictionary.file-* \ 
-dt sequencefile -~-w 5 


表 9-1 列 出 了 这 个 例子 的 输出 。 注 意 10 个 话题 只 列 出 了 5 个 。 


表 9-1 在 Reuters 新 闻 数 据 上 进行 LDA 话 题 建 模 ， 各 话题 中 的 前 5 个 单词 


话题 0 话题 1 话题 2 话题 3 话题 4 
wheat south loans trading sald 
7-apr-1987 said president exchange inc 
agriculture oll bank market its 
export production chairman dollar corp 
tonnes energy debt he company 


LDA 人 能够 从 Reuters 数 据 集中 提取 出 多 种 话题 集合 , 但 是 , 仍然 会 出 现 一 些 没 有 太 大 实际 意义 
的 词 ， 如 7-apr-1987、said、he 等 。LDA 将 它们 与 集合 中 的 其 他 词语 同等 对 待 。 一 般 需 要 更 多 的 迭 
代 次 数 才能 找到 更 好 的 话题 模型 。 

想 去 挥 这 些 不 需要 的 词 并 不 容易 ， 因 为 他 们 出 现 的 频率 很 高 。 相 比 起 关键 词 来 说 ， 它 们 属 
于 任何 一 个 话题 的 概率 都 要 更 高 。 如 果 我 们 检查 一 下 包含 这 些 话题 的 文档 ， 会 发 现 这 是 显 而 易 
见 的 。 但 即使 在 词典 癌 量 中 去 挥 高 频 单 词 之 后 ,， 像 said、he 之 类 的 词 也 是 不 会 消失 的 。LDA 能 
做 得 更 好 吗 ? 

上 面 的 例子 中 我 们 还 有 一 个 参数 未 修改 过 ， 即 话题 平滑 参数 ( -a )。 因 为 文本 数据 有 许多 噪 
声 ， 这 会 导致 LDA 的 估计 出 现 错误 。LDA 可 以 通过 增 大 平滑 值 来 避 开 这 个 问题 , 这 将 增加 那些 低 
频 关 键 词 的 权重 。 当 然 , 这 么 做 也 会 降低 高 频 词 的 有 影响。 这 会 导致 LDA 需 要 更 多 次 的 迭代 才能 7 
生 有 意义 的 话题 模型 。 

默认 情况 下 ，LDA 设 置 平滑 参数 为 50/numTopics。 在 我 们 的 例子 中 ， 它 是 5。 现 在 我 们 把 
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这 个 平滑 参数 设 为 20， 人 然后 重新 运行 LDA。 壕 代 结 束 之 后 ， 用 LDAPrintTopics 类 来 看 输出 。 
输出 列 于 表 9-2 中 。 高 频 词汇 的 影响 仍然 存在 ， 但 是 话题 内 容 变 得 更 有 条 理 了 。 


表 9-2 ”增加 平滑 参数 后 ，LDA 话 题 建 模 所 生成 话题 中 的 前 5 个 单词 


话题 0 话题 1 话题 2 话题 3 话题 4 
production year Sald stock VS 
tonnes growth banks corp mln 
price foreign have securities cts 
oll last analysts inc net 
department billion market reuter loss 


9.5.5 ”话题 模型 的 应 用 


话题 模型 的 输出 文件 格式 是 “ 键 - 值 ” ( IntPairWri table,DoublewWritable )。 键 ( key ) 
是 一 对 整数 ， 第 一 个 是 主题 ID ， 第 二 个 是 特征 ID; 值 (value ) 是 单词 在 模型 中 出 现 的 似 然 值 。 

这 些 话题 模型 可 以 用 来 解决 很 多 实际 问题 。 我 们 可 以 将 他 们 用 作 禾 中 心 , 并 使 用 距离 测度 将 
文档 关联 到 最 近 的 中 心 ， 也 可 以 为 它们 分 配 标 签 ， 并 将 它们 用 作 分 类 模型 ,这 同样 需要 使 用 某 种 
距离 测度 。 

话题 集合 可 以 以 标签 云 (tag cloud ) 的 形式 进行 可 视 化 ， 类 似 Digg 和 Delicious 提 供 的 功能 。 
话题 建 模 同样 可 以 用 于 将 话题 按时 间 轴 进行 可 视 化 ,我 们 可 以 以 月 或 者 年 为 周期 在 新 闻 文章 上 建 
六 话题 模型 。 这 样 就 能 展示 出 话题 随时 间 的 发 展 趋势 。 


注意 一 个 有 趣 的 实验 是 在 时 间 轴 上 对 科学 研究 进行 话题 建 模 。 在 19 世 纪 90 年 代 年 左右 的 科学 
杂志 中 最 经 常 出 现 的 词 是 和 蒸汽 机 相关 的 ，20 世 纪 40 年 代 是 与 原子 研究 相关 的 ，20 世 纪 
90 年 代 则 是 与 聚合 物 和 半 寻 体 器 件 相关 的 。David M. Blei 在 如 下 链接 中 给 出 了 这 个 实验 的 
解释 : http://www.cs.princeton.edu/~blei/topicmodeling.html. 


话题 模型 中 的 词 可 以 用 来 提高 搜索 的 窗 盖 率 。 例如 , 一 个 人 搜索 可 口 可 乐 ,可口可乐 和 百事 
可 乐 会 同时 出 现在 查询 结 来 中 。 

LDA 算 法 可 以 从 语料库 中 发 现 有 趣 的 艇 ,以 及 语料库 中 词语 之 间 的 关联 。 人 们 仍然 在 探索 如 
何 充分 利用 这 些 信 息 。Mahout 中 的 LDA 可 以 帮助 我 们 在 大 量 的 服务 各 上 分 析 数 以 百 万 计 的 文件 。 
为 它 的 运行 速度 非常 快 , 做 起 实验 来 非 第 方便 。 我 们 将 在 第 12 章 的 案例 学 习 中 探究 LDA， 展示 
如 何 用 它 来 改进 相关 文件 发 掘 的 框 染 。 


9.6 小结 
在 这 一 章 中 你 了 解 了 Mahout 中 的 聚 类 算法 。 我 们 按 聚 类 策略 将 各 种 聚 类 算法 归纳 到 表 9-3 中 。 
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表 9-3 Mahout 中 的 各 种 聚 类 算法 、 入 口 类 及 属性 


算 法 in-memory 实 现 MapReduce 实 现 固定 簇 数 部 分 从 属 
k-means KMeansClusterer KMeansDriver Y N 
canopy CanopyClusterer CanopyDriver N N 
模糊 k-means FUZZyKMeansClusterer FUuZzZyKMeansDriver Y Y 
狄 利克 雷 DirichletClusterer DirichletDriver N Y 
LDA N/A LDADriver Y Y 


Mahout 实 现 的 k-means 算法 对 大 小 数据 集 都 适用 。 估 计 出 好 的 艇 中 心 会 使 得 聚 类 更 快速 ， 所 
以 我 们 探索 了 改善 中 心 佑 计 的 方法 。canopy 聚 类 算法 可 以 快速 、 近 似 地 对 数据 进行 聚 类 ， 并 得 到 
近似 的 艇 中 心 。 使 用 这 些 中 心 作为 初始 值 , k-means 壕 代 过 程 会 更 快 地 收敛 ,我 们 也 了 解 了 k-means 
的 各 种 参数 ， 并 用 k-means 创建 了 一 个 新 闻 网 站 聚 类 的 模块 。 通 过 尝试 Mahout 中 的 各 种 距离 测度 
类 ， 我 们 可 以 优化 新 闻 聚 类 模块 ， 以 得 到 更 好 的 文本 聚 类 质量 。 

企 糊 Kk-means 聚 类 给 出 了 文档 对 不 同 簇 的 部 分 从 属 信 息 ， 并 且 要 比 k-means 具 有 更 好 的 收敛 
性 。 我 们 使 用 模糊 k-means 作为 聚 类 模块 ， 来 获取 这 种 软 分 配 信息 。 由 于 k-means 和 模糊 k-means 
都 需要 预先 设 定 k 人 全， 我 们 也 探索 了 其 他 方法 ， 并 发 现 基 于 模型 的 聚 类 算法 可 以 作为 一 个 很 好 的 
替代 品 。 

狄 利 元 雷 聚 类 是 Mahout 中 基于 模型 的 聚 类 算法 , 它 并 不 仅仅 是 将 点 分 配给 各 个 复 , 还 可 以 解 
释 模 型 对 数据 的 拟 合 程度 以 及 簇 中 点 的 分 布 情况 。 该 算法 可 以 找 出 很 复杂 的 数据 集中 的 禾 ， 而 前 
面 提 到 的 方法 则 不 行 。 狄 利克 雷 聚 类 被 证 明 是 摘 述 此 类 数据 的 一 个 有 力 工 具 。 

最 后 ,我 们 介绍 了 LDA。LDA 是 聚 类 领域 的 一 个 新 进展 ， 可 以 将 数据 建 模 为 混合 话题 。 这 些 
话题 不 仅仅 是 文档 复 ,， 也 是 词 的 概率 分 布 。LDA 可 以 在 将 单词 集合 聚 类 为 话题 的 同时 ,将 文档 与 
多 个 话题 天 联 起 来 。LDA 市 来 了 一 些 新 的 发 展 方 回 , 它 允 许 我 们 仅 通过 分 析 文 本 语料库 就 能 得 到 
单词 之 间 的 联系 。 

实际 应 用 中 , 究竟 哪 种 方法 最 适合 你 的 数据 ,还 要 通过 实验 来 选择 。Mahout 的 聚 类 包 中 有 一 
些 有 力 的 工具 , 它们 建立 在 Hadoop 的 基础 上 , 良好 的 可 扩展 性 使 得 你 可 以 通过 简单 添加 机 需 来 对 
任意 规模 的 数据 进行 聚 类 。 

下 面 的 草 市 将 更 注重 聚 类 算法 速度 和 质量 的 调 优 , 沿 着 这 个 思路 ,我 们 将 优化 新 闻 聚 类 代码 ， 
并 最 终 展 示 一 个 实用 的 相关 文章 功能 。 我们 也 会 在 案例 学 习 中 探索 一 些 有 趣 的 问题 , 它们 都 可 以 
用 Mahout 中 的 聚 类 算法 来 解决 。 

下 面 , 我 们 将 在 第 10 草 中 介绍 Mahout 中 一 些 不 太 稼 见 的 工具 和 技术 , 它们 可 以 帮助 你 理解 并 
改善 聚 类 的 质量 。 


评估 并 改善 聚 类 质量 


本 章 内 容 

口 检查 聚 类 输出 
口 评 佑 聚 类 质量 
口 改善 聚 类 质量 


前 一 章 中 我 们 学 习 了 很 多 聚 类 算法 : k-means 、canopy、 模 糊 k-means、 狄 利克 雷 聚 类 以 及 LDA 
等 。 它 们 在 特定 数据 集 上 表现 效果 很 好 ， 而 有 时 在 其 他 数据 集 上 却 表现 较 差 。 完 成 任 一 聚 类 之 后 
都 会 有 一 个 很 自然 的 问题 : 算法 在 这 个 数据 集 上 的 表现 究竟 如 何 ? 

分 析 聚 类 的 输出 是 一 项 重要 工作 。 可 以 通过 简单 的 命令 行 工具 , 或 可 视 化 的 GUI 工具 来 完成 。 
将 篮 可 视 化 并 确定 问题 所 在 之 后 , 这 些 结果 可 以 正式 作为 质量 评价 的 指标 ， 即 以 数值 的 形式 来 表 
明 复 的 好 坏 。 在 本 章 中 ， 我 们 将 介绍 几 种 检查 、 评 估 和 改善 聚 类 算法 的 方法 。 

对 聚 类 算法 调 优 涉及 建立 自 定义 的 距离 测度 标准 以 及 选择 合适 的 算法 ,评价 指标 反映 出 距离 
测度 标准 对 聚 类 质量 的 影响 。 首 先 ， 你 需要 知道 复 看 起 来 的 样子 以 及 复 中 心 能 够 表达 的 特征 。 你 
还 需要 知道 数据 点 在 不 同 复 间 的 分 布 。 你 肯定 不 希望 扩 1 个 复 都 只 有 一 个 数据 点 ， 而 第 K 个 篮 则 宫 
括 了 剩 下 所 有 的 数据 点 。 

知道 复 的 样子 之 后 ,你 就 能 集中 精力 去 改进 聚 类 算法 。 为 此 ,你 需要 知道 如 何 调整 输入 同 量 
的 质量 、 距 离 测 度 标准 以 及 算法 的 各 种 参数 。 

下 面 开 始 我 们 的 旅程 ， 去 探索 一 些 能 帮助 检查 聚 类 输出 的 工具 和 技术 。 


10.1 检查 聚 类 输出 


Mahout 中 检查 聚 类 输出 的 主要 工具 是 clusterpumper。ClusterDumper 就 在 mahout-utils 
模块 的 org.apache.mahout.utils.clustering 包 中 (也 可 通过 bin/mahout 脚 本 的 clusterdump 命 令 调 
用 )。 用 clusterpumper 读 取 Mahout 中 聚 类 算法 的 输出 很 方便 。 第 9 章 中 介绍 k-means 时 你 就 已 经 
见 过 它 了 ， 本 章 中 我 们 将 用 它 来 分 析 聚 类 质量 。 

clusterDumpezr 的 输入 是 人族 集合 ， 此 外 ， 将 数据 转 为 回 量 时 生成 的 词典 也 是 一 个 可 选 的 输 
人 。Clusterpumper 完 整 的 选项 列 于 表 10-1 中 。 
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表 10-1 Mahout 中 clusterpumper 工 具 的 选项 及 默认 值 


选 项 标 起 摘 述 默 认 值 
SequenceFile 目 录 -5S 包含 复 sequenceFile 的 目录 N/A 
( String ) 
输出 ( string ) -0 输出 文件 ; 知 不 指定 ， 则 输出 到 终端 N/A 
数据 点 目录 -p 聚 类 结束 之 后 ，Mahout 的 聚 类 算法 会 产生 两 种 输出 。 一 种 是 成 对 的 < N/A 
( String ) 族 id, 簇 中 心 > 集合 ， 男 一 种 是 成 对 的 < 数据 点 id, 禾 id> 人 集合。 后 者 在 


聚 类 完成 时 生成 ， 通 篆 存 放 在 输出 目录 的 points 文 件 夹 下 。 当 此 参数 
设 为 points 文 件 夹 时 ， 会 输出 一 个 篮 中 的 所 有 数据 点 


词典 (String ) -9 词典 文件 路 径 ， 词 典 文 件 包 含 从 整数 ID 到 单词 的 反 回 映射 N/A 
词典 类 型 -dt 词典 文件 的 类 型 。 奉 为 text ( 文本 ) ， 则 整数 ID 和 单词 应 该 用 制 表 符 text 
( String ) 分 隔 。 奉 格式 为 SequenceFile， 则 应 该 有 一 个 Integer 类 型 的 键 和 

String 类 型 的 值 
单词 个 数 (int ) -nn 需要 打印 的 单词 个 数 10 


回想 一 下 , 任何 复 都 有 一 个 中 心 点 ， 它 是 该 复 中 的 所 有 点 的 平均 值 。 除 了 基于 模型 的 聚 类 算 
法 如 狄 利克 雷 算法 之 外 , 这 对 所 有 算法 都 成 立 。, 在 狄 利克 雷 聚 类 过 程 中 , 中 心 并 不 是 点 的 平均 值 ， 
而 是 一 组 特定 数据 点 的 锚 点 。 

中 心 点 可 以 作为 对 复 的 概括 总 结 , 方便 我 们 快速 了 解 各 个 复 的 性 质 。 中 心 点 中 权重 最 高 的 那 
些 特征 ( 即 值 最 大 的 那些 维度 ) 最 能 反映 艇 的 性 质 。 对 于 文本 文档 来 说 ,特征 即 是 单词 ， 也 就 是 
说 中 心 点 权重 最 高 的 那些 单词 反映 出 了 该 篮 中 文档 要 表达 的 含义 。 

例如 ， 讨 论 近 期 美国 总 统 大 选 的 文档 复 中 ，Obama、McCain 和 election 这 些 特 征 将 会 有 较 高 
的 权重 。 这 些 权 重 最 高 的 特征 之 间 在 语义 上 也 是 有 关联 的 。 另 一 方面 ,如 果 权 重 最 大 的 特征 并 不 
相关 ,， 则 意味 着 复 中 记录 了 一 些 不 相关 的 东西 。 导 致 这 一 现象 的 原因 可 能 是 多 方面 的 ,本 章 会 对 
其 中 的 大 部 分 原因 进行 讨论 。 

我 们 来 看 一 个 例子 ,在 两 个 k-means 聚 类 输出 上 执行 ClusterDumpezr 的 结果 : 其 中 一 个 使 用 
了 欧 氏 距离 测度 ， 而 男 一 个 使 用 了 余弦 距离 测度 : 


$s bin/mahout clusterdump 

-5 kmeans-output/clusters-19/ \ 

d reuters-vectors/dictionary.file-0 \ 
-dt sequencefile ~-n 10 


ClusterDumpezr 为 每 个 篮 输 出 了 一 系列 信息 ， 包 括 中 心 问 量 和 复 中 权重 最 高 的 词汇 。 回 量 
的 各 个 维度 被 转化 为 词典 中 的 单词 并 输出 到 屏幕 上 。 将 这 些 输出 写 人 到 文本 文件 中 可 能 更 容易 查 
阅 ， 可 以 使 用 -o 选 项 来 实现 这 一 功能 : 

$s bin/mahout clusterdump 


-S kmeans-output/clusters-19/ \ 
-Oo output.txt NA\ 


-d reuters-vectors/dictionary.file-0 \ 
-dt sequencefile -n 10 
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可 以 使 用 任何 文本 编辑 器 打开 这 里 的 output.txt 文 件 。 包 含 各 簇 的 中 心 向 量 的 行 通常 比较 长 ， 
因此 在 下 面 的 输出 中 将 其 省 略 。 下 面 的 代码 清单 是 一 个 典型 的 top-10 词 汇 有 序列 表 ， 取 上 自 Reuters 
数据 集 上 k-means 聚 类 的 结 采 ， 其 中 使 用 了 欧 氏 距离 测度 。 


代码 清单 10-1 k-means 聚 类 结果 中 的 前 10 个 词 〈 使 用 欧 氏 距离 测度 ) 


TOP Terms : 
Sald 
bank 
dollar 
market 
US 
banks 
PC 
he 
rates 
rate 


= 11.60126582278481 
= 这 5.943037974683544 
= 4.89873417721519 
三 4.405063291139241 
=> 4.2594936708860756 
=> 3.3164556962025316 
三 党 3.069620253164557 
= 2.740506329113924 
=> 2.7151898734177213 
=> 2.7025316455696204 


上 述 簇 中 徘 前 的 词汇 显示 它 包 含 与 银行 有 关 的 文档 。 一 个 类 似 的 入 列 于 代码 清单 10-2 中 ,， 它 


是 使 用 余弦 相似 度 得 到 的 。 


代码 清单 10-2 ”k-means 肾 类 结果 中 的 前 10 个 词 (使 用 余弦 距离 测度 ) 


TOP Terms.: 
bank 
SS 七 对 
bills 
money 
market 
england 
Pet 
US 
dealers 
billion 


它们 很 相似 ， 但 看 起 来 后 者 要 更 好 一 点 。 


重要 词汇 中 出 现 了 said 这 个 常见 动词 。 


=> 3.3784878432986294 
竺 多 3.122450990639185 
=%> 2.440446103514419 
= 2.324820905806048 
2.223828649332401 
=> 1.6710182027854468 
=> 1.58833539918481277 
=> 1.4908386850534333 
=> 1.4752549691633745 
=> 1.3586127823991738 


第 二 个 族 中 money 是 一 个 重要 词汇 ， 而 第 一 个 族 的 


下 一 节 将 基于 上 述 输出 来 对 聚 类 质量 进行 评估 。 


10.2 分 析 聚 类 输出 


影响 聚 类 质量 的 不 仅仅 是 输入 ， 还 包括 众多 的 算法 ， 每 个 算法 都 有 震 要 调 优 的 参数 。 如 
可 


末 案 类 出 现 
格外 重要 。 


还 
误 ， 要 对 其 进行 调试 是 很 困难 的 。 因 此 ， 通 过 分 析 禾 来 了 解 发 生 了 什么 显得 


我 们 首先 来 分 析 代 码 清单 10-1 和 代码 清单 10-2 的 输出 ， 主 要 关注 以 下 3 个 方面 : 


D 距离 测度 和 特征 选择 ; 
口 族 内 以 及 禾 间 距离 ; 
口 混合 以 及 重奏 的 禾 。 
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10.2.1 距离 测度 与 特征 选择 


对 于 文本 来 说 , 余弦 距离 测度 更 为 合适 ,因为 它 根 据 高 权重 的 公共 单词 来 聚合 文档 。TF-IDF 
权重 向 量 中 , 话题 单词 具有 较 高 的 权重 , 因此 使 用 余弦 距离 测度 聚合 到 一 起 的 相似 文档 更 倾 问 于 
拥有 公共 的 话题 单词 。 这 使 得 簇 中 心 回 量 中 ， 话 题 单词 相 比 停 用 词 会 具有 更 高 的 平均 权重 。 

代码 清单 10-2 中 的 重要 单词 都 是 话题 相关 的 ， 而 且 没 有 像 saiq 这 样 的 停 用 词 。 我 们 在 代码 清 
单 10-1 中 则 过 到 了 这 类 词 ， 即 包含 了 一 些 并 不 重要 的 词汇 。 人 尽管 两 个 示例 中 都 使 用 了 TF-IDF 权 重 
向 量 ， 代 码 清 单 10-1 的 方法 中 ，said 这 个 常见 动词 的 重要 性 较 高 。 尽 管 saiq 的 权重 ( 在 TF-IDF 向 
量 中 ) 较 小 ,其 在 整个 艇 中 得 到 的 均值 却 会 比 一 些 话题 单词 还 要 大 ， 因 为 欧 氏 距离 测度 给 予 所 有 
的 特征 同样 的 重要 性 。 

如 你 所 见 ， 选 择 好 的 距离 测度 有 助 于 改善 质量 。 

对 特征 进行 加 权 

好 的 簇 通 党 围绕 一 些 较 强 的 特征 而 形成 ， 这 些 特征 使 得 文档 之 间 在 概念 上 形成 强烈 的 相似 
性 。 这 意味 看 选择 正确 的 特征 与 正确 的 距离 测度 有 着 同样 的 重要 性 ; 对 于 无 结构 的 文本 , 需要 提 
取 好 的 特征 以 得 到 好 的 聚 类 质量 。 但 TF-IDF 加 权 有 一 些 局 限 性 。 对 于 实际 应 用 , 我 们 需要 在 这 一 
加 权 技 术 的 基础 上 加 以 改进 。 

对 于 其 他 类 型 的 数据 , 需要 对 权重 癌 量 进行 精心 设计 以 得 到 最 优 结 有 果 。 好 的 聚 类 算法 需要 给 
了 予 重要 特征 较 高 的 权重 ， 而 给 也 不 重要 的 特征 较 低 的 权重 。 

回忆 第 8 革 中 对 苹果 癌 量 化 的 例子 。 从 数值 上 来 讲 ， 颜 色 值 较 大 ， 重 量 值 较 小 。 如 果 我 们 发 
现 重量 是 比 颜 色 更 好 的 特征 ,那么 重量 值 就 需要 放大 ， 而 颜色 值 则 需要 缩小 。 例 如 ， 颜 色 信 可 以 
缩小 到 0~1 之 间 ， 而 重量 值 可 以 放大 到 0~100 之 间 。 这 样 一 来 , 这些 值 的 物理 意义 就 不 存在 了 。 留 
下 的 仅仅 是 一 个 同 量 ， 其 特征 和 权重 会 使 得 对 苹果 的 聚 类 效果 更 佳 。 


10.2.2” 禾 间 与 族 内 距离 


给 出 所 有 中 心 点 , 可 以 计算 出 特定 距离 测度 下 所 有 中 心 点 对 之 间 的 距离 ,并 以 矩阵 形式 表示 
出 来 。 这 个 徐 间 距离 矩阵 很 好 地 反映 了 聚 类 过 程 中 所 发 生 的 事情 ， 它 展示 了 最 终结 末 里 和 族 之 间 的 
远近 关系 。 

徐 内 距离 是 一 个 禾 内 部 所 有 成 员 间 的 距离 ， 而 不 是 两 个 不 同 簇 之 间 的 距离 。 这 一 指标 反映 出 
距离 测度 标准 汇 容 元 系 的 能 

下 面 我 们 来 看 看 这 两 类 距离 。 

1. 复 间 距离 

族 间 距离 能 够 很 好 的 反映 聚 类 质量 ; 好 的 聚 类 结果 中 不 同族 中 心 点 之 间 不 大 可 能 靠 得 很 近 ， 
太 近 则 意味 看 聚 类 过 程 产 生 了 多 个 具有 相似 特征 的 组 ， 并 导致 禾 之 间 的 区 别 不 够 显 若 。 

如 果 找 到 一 篇 新 闻 ， 它 在 关于 US 、president 和 election 的 复 中 ， 而 不 在 讨论 candidate 、United 
States 和 MecCain 的 复 中 ， 这 有 意义 吗 ?” 应 该 没有 ; 我 们 可 能 不 而 望 复 相 互 之 间 隅 得 大 近 。 禾 间距 
离 与 这 方面 的 质量 密切 相关 。 图 10-1 显 示 了 两 种 不 同 数据 分 布 的 簇 间距 离 。 
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较 大 的 禾 间 距离 较 小 的 簇 间 距离 


》 轴 
yy 和 


(0, 0) x 轴 (0, 0) x 轴 
图 10-1 复 间 距离 是 反映 数据 划分 好 坏 的 一 个 标准 。 它 依赖 于 特征 加 权 技 术 
以 及 所 用 的 距离 测度 
我 们 知道 欧 氏 距离 值 通常 要 比 余弦 距离 值 大 。 在 距离 测度 不 同 的 情况 下 比较 复 间 距离 没有 意义 ， 
除非 他 们 都 被 归 一 化 到 同样 的 范围 。 归 一 化 后 的 所 有 族 的 平均 族 间 距离 能 够 很 好 的 反映 聚 类 质量 ，。 
下 面 的 代码 清单 给 出 了 一 种 根据 聚 类 输出 计算 禾 间 距离 的 简单 方法 。 
代码 清单 10-3 ”计算 徐 间 距离 


public class InterClusterDistances 1{ 


Public static voiqd main{(String args[]}) throws Exception 1 
String inputFile 
= "reuters-kmeans-clusters/clusters-6/pPart-r-00000°"; 有 
Configuration conf = new Configuration().; 


Path path = new Path (inputFile).; 


System.out .println(*Input Path: " + path).: 
FiljeSystem fs = FileSystem.get {path.toUri{}, conf): 
List<Cluster> clusters = new ArrayList<Cluster>!{).,， 


SequenceFile.Reader reader = new Sequencerile,.Reader (fs, path, conf)}); 


Writable key = (Writable)} reader.getKkeyClass{}) .newlinstance{}: 
Writable value = {Writable) reader.getValueClass{) .newInSstance il ) ; 
while {reader.next (key, value}))}) { < 读 入 秘 对 象 
Cjluster cluster = {Cjuster} value: 
Clusters.adgd (cjuster}.: 
value = (Writable} reader.getValueClass!{) .newinstance().; 
} 
DistanceMeasure measure = new CosineDistanceMeasuret{).; 
double max = 0,， 


double min = Double.MAX VALUE:; 
double sum = 0.; 


int count = 0; 
for (int i = 0; i < clusters.size{}); i++) { _ 计算 距离 测度 
for {int 3 = i + 1;j < clusters.size{(}); j++) { 


double d = measure.distance (clusters.get (1} .getCenter!{()}), 
clusters.get(j) .getCenter()),; 

min = Math.min{d, min}).: 

max = Math.max(d, max).: 


(人 


No.10 
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Sum += dd; 


COUIT 七 十 十 ， 
} 
} 
System.out.printin("Maximum Intercluster Distance: " + max),; 
System.out.printin("Minimum Intercluster Distance: " + min}); 


System.out.printjn("Average Intercluster Distance(Scaled}: '" 
+ {sum /count - min} / (max - min})).: 
} 
} 


代码 清单 10-3 计 算 了 所 有 中 心 点 对 之 间 的 距离 , 并 计算 了 最 小 、 最 大 以 及 归 一 化 的 禾 间 距离 。 
对 于 使 用 cosineDistanceMeasutre 的 Reuters 聚 类 结果 ， 它 提供 了 如 下 输出 : 


Maximum Intercluster Distance: 0.9577057041381253 
Minimum Intercluster Distance: 0.22988591806895065 
Intercluster DistancelScaled}): 0.7702427093554679 


AvVverage 


在 使 用 欧 氏 距离 测度 的 Reuters 聚 类 结 末 上 运行 同样 的 代码 ， 会 得 到 明显 不 同 的 输出 : 


Maximum Intercluster Distance: 96165.06236154583 
Minimum Intercluster Distance: 2.7820472396645335 
Average Interciluster DIStancelScaled): 0.09540179823852128 


注意 , 使 用 余弦 距离 测度 时 ,最 小 和 最 大 艇 间距 离 的 大 小 比较 接近 。 这 意味 着 使 用 余弦 距离 
测度 时 ， 簇 的 分 布 较为 均 义 。 而 使 用 欧 氏 距离 时 ， 最 小 复 间 距离 非常 小 , 这 意味 着 至 少 有 两 个 禾 
几乎 一 样 ， 或 者 说 几乎 完全 重合 。 

归 一 化 后 的 平均 篮 间 距离 清晰 的 显示 出 余弦 距离 测度 要 优 于 欧 氏 距离 , 因为 它 生 成 的 簇 分 布 
更 均 义 。 这 也 揭示 了 为 什么 基于 余弦 距离 得 到 的 簇 中 , 重要 词汇 的 质量 要 比 基 于 欧 氏 距离 得 到 的 
族 高 。 

2. 族 内 距离 

族 内 距离 (一 个 艇 内 的 成 员 之 间 的 距离 ) 要 比 复 间距 离 小 。 图 10-2 展 示 了 使 用 两 种 不 同 距离 
测度 所 得 到 的 复 内 距离 。 一 个 好 的 距离 测度 会 使 得 相似 对 象 间 的 距离 较 小 , 并 产生 更 为 条 凑 的 禾 ， 
因而 也 能 更 可 靠 的 区 分 不 同 簇 。 


较 大 的 艇 内 距离 较 小 的 艇 内 距离 
交 凑 
~ ~ 
(0, 0) x 加 (0, 0) x 轴 


图 10-2” 簇 内 距离 是 反映 数据 点 接近 程度 的 指标 。 聚 类 质量 取决 于 两 个 因素 : 距 
离 测度 给 相隔 较 远 的 对 象 较 大 的 惩 如 值 ， 给 相隔 较 近 的 对 象 较 小 的 惩 避 
值 。 二 者 的 比值 越 大 ， 篮 越 分 散 
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10.2.3 ” 艇 的 混合 与 重 匡 


在 茶 些 数据 集中 ， 很 难 将 数据 点 划分 为 好 的 复 。 这 种 情况 下 产生 的 篮 具有 较 低 的 族 间 距离 ， 
其 大 小 已 经 接近 复 内 距离 了 。 对 这 类 数据 集 , 更 改 距离 测度 或 改进 特征 选择 策略 通常 不 会 有 什么 
效果 。 我 们 需要 使 用 一 些 特殊 的 算法 ,例如 模糊 k-means( 识别 部 分 从 属 关 系 ) 或 犹 利克 和 雷 过 程 
聚 类 ( 识别 能 够 拟 合 数据 的 模型 )。 

回顾 一 下 各 种 聚 类 自 法 是 必要 的 , 包括 它们 的 优势 以 及 适用 的 数据 类 型 。 下 一 市 将 探索 一 些 
能 够 改进 禾 间 和 禾 内 距离 的 进 阶 技术 。 


10.3 ”改善 聚 类 质量 


有 两 个 因素 对 改善 聚 类 质量 至 天 重要 : 改进 文档 中 特征 的 加 权 方 式 以 及 设计 更 合理 的 距离 测 
度 。 好 的 加 权 策 略 可 以 突出 对 象 中 好 的 特征 ,而 合适 的 距离 测度 则 有 助 于 将 相似 的 特征 聚集 到 一 
起 。 接 下 来 的 两 个 小 市 会 告诉 你 如 何 设 计 目 定义 的 特征 选择 类 和 距离 测度 类 。 


10.3.1 改进 文档 向 量 生成 过 程 


好 的 文档 回 量 要 有 合适 的 特征 ， 即 赋 子 重要 特征 更 高 的 权重 。 在 文本 数据 中 ,有 两 种 方式 可 
以 用 来 改善 文档 癌 量 的 质量 : 去 除 噪声 和 使 用 合适 的 加 权 技 术 。 

并 非 所 有 文本 文档 都 是 高 质量 的 , 可 能 会 有 一 些 比较 怪异 的 语句 , 单词 也 可 能 由 于 格式 或 结 
构 的 原因 而 很 难 区 分 。 互 联网 上 产生 的 海量 数据 集 就 是 如 此 。 因 特 网 上 的 大 部 分 文本 内 容 ， 如 网 
页 、 博 客 、wiki、 聊 天 记录 或 论坛 ， 在 传输 过 程 中 都 混杂 着 大 量 标 记 、 样 式 表 和 脚本 ， 而 不 是 纯 
粹 的 文本 。 通 过 OCR ( Optical Character Recognition， 光 学 字符 识别 ) 技术 解析 扫描 文档 而 产生 
的 文字 ， 还 有 SMS 人 信息， 它们 的 质量 都 很 差 ， 例 如 字符 识别 错误 the 识 别 为 tne ) 或 极 问 的 倡 语 
( 用 c u 表 示 see you )。 文 本 中 可 能 丢失 字符 、 空 格 或 标点 符号 ， 或 者 包含 随意 的 术语 其 至 意 想 不 
到 的 单词 和 语法 错误 。 要 在 噪声 如 此 严重 的 情况 下 完成 聚 类 是 很 困难 的 。 要 得 到 比较 好 的 质量 ， 
需要 首 和 多 从 数据 中 清理 挤 这 些 错 诈 。 

一 些 现成 的 文本 分 析 工 具 可 以 很 好 地 处 理 这 些 问题 。Mahout 提 供 了 一 个 钧 子 , 允许 在 癌 量 化 
过 程 中 注入 任何 文本 过 滤 技 术 。 这 是 通过 一 种 叫做 Lucene Analyzer 的 东西 实现 的 。 尺 省 当时 我 
们 没有 做 出 太 多 解释 ， 实 际 上 你 已 经 在 第 九 半 中 接触 过 了 Lucene Analyzer， 在 那里 我 们 试图 改 
进 新 闻 聚 类 模块 。 

建立 自 定 义 的 Lucene Analyzer 包 括 如 下 步骤 : 

口 扩展 Analvzetz 接 口 ; 

口 重 载 tokenSttream(SLrind field，Reader Lz) 方 法 。 

代码 清单 10-4 展 示 了 一 个 自 定 义 的 Lucene Analvzer， 它 使 用 standqardTokenizer 将 一 篇 
文档 词 条 化 。standardTokenizer 是 Lucene 中 实现 的 具有 一 定 容 错 性 的 词 条 化 工具 。 
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代码 清单 10-4 ”一 个 封装 了 StandardTokenizer 的 自 定义 Lucene Analyzer 


public class MyAnalyzer extends Analyzer { < 十 一 一 扩展 Analyzer 
@Override 
public Tokenstream tokenstream! 
String fieldName, Reader reader) { 
TokenStream result = new StandardTokenizer { | baer 
TokenStream 


Version.LUCENE CURRENT, reader}).; 
return result. 


} 

该 目 定 义 分 析 副 将 Reader 输 入 的 文本 符号 化 为 一 个 词 条 流 。 一 个 词 条 就 是 一 个 单词 ， 所 以 
你 可 以 将 一 个 文本 文档 视 为 一 个 词 条 流 。 在 代码 清单 10-4 中 我 们 使 用 standardTokenizer 来 将 
Reader 中 的 内 容 词 条 化 。 

下 一 步 我 们 来 尝试 改进 这 个 Tokenizer。 我 们 不 再 简单 的 将 单词 词 条 化 , 而 是 引入 了 一 个 过 
滤 融 来 将 词 条 都 转 为 小 写 。 ee 下 面 的 代码 清单 中 。 


代码 清单 10-5 ”上 齐 有 小 写 过 滤 需 的 Myanalyzez 


Public class MyAnalyzer extends Analyzer 1 


dOverride 


public TokenStream tokenStream!(String fieldName, Reader reader) { 


TokenStream result = new StandardTokenizer! 
Version.LUCENE CURRENT, reader).;} 
Pesilb es mew Towearcaeer lier (result): < 一 一 应 用 小 写 过 滤器 


return result.; 


. 

TokenFilter 对 底层 的 词 条 流 应 用 了 某 种 变换 ， 这 些 过 滤 融 可 以 级 联 起 来 。 
LowerCaseF1ilter, Lucene 还 提供 了 了 StopFilter. a PorterStemFilter, 
StopFilter 跳 过 底层 词 条 流 中 的 停 用 词 ，LengthFilter 过 滤 掉 长 度 不 在 指定 范围 内 的 词 条 ， 
PorterStemFilter 则 取 底 层 单词 的 词 干 。 取 词 干 是 一 个 将 单词 还 原 到 它 的 基本 形式 的 过 程 。 例 
如 单词 kicked 和 Kicking 都 会 被 还 原 为 kick。 


注意 PorterStemFilter 仅 对 英文 文本 有 效 ， 但 Lucene 中 也 有 一 些 可 用 于 其 他 语言 的 词 干 过 
滤器 。 


使 用 这 些 过 滤 需 可 以 创建 一 个 自 定 义 的 Lucene Analyzer， 如 代码 清单 10-6 所 示 。 
代码 清单 10-6 ”使 用 多 个 过 滤 需 的 目 定义 Lucene Analyzer 


public class MyAnalyzer extends Analyzer { 


QOverride 
Public Tokenstream tokenSstream(String fieldName, Reader reader) { 


2 
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TokenStream result = new StandardTokenizer ( 本 

Version.LUCENE CURRENT ， reader).: 应 用 小 写 
result = new LowerCaserilter (result)}.,; 过 注 希 根据 长 度 删 除 单词 
result = new LengthrFilter(result,3, 50).， 
resuljt = new StopFilter!(result, 

StandardAnalyzer.STOP WORDS SET).; < 一 去 除 停 用 词 

result = new PorterStemFilter (result).; 
return result; 取 单 词 词 干 


} 
使 用 这 个 Lucene Analyzer, 我 们 可 以 生成 TF-IDF 向 量 , 并 对 Reuters 集 合 中 的 数据 进行 聚 类 。 
这 里 我 们 借鉴 了 代码 清单 9-4 中 的 代码 ， 并 引入 了 这 里 的 Analyzer， 如 代码 清单 10-7 所 示 。 


代码 清单 10-7 修改 NewsKMeansClustering.java， 改 用 MyAnalyzer 


public class NewsEMeansClustering { 
public static voiqd main{(Sstring args[]) throws Exception { 
Int minSupport = 5:; 
int minDf = 5; 
int maxDFPercent = 99; 
int maxNGramSize = 1; 
int minLLRValue = 50: 
int reduceTasks = 1; 
int chunkSize = 200; 
Int norm = -1:; 
boolean sequentialAccessOutput = true; 


String inputDir = "reuters-seqfiles"; 

File inputDirFile = new File!(inputDir),; 

Configuration conf = new Configuration(}),;} 

FileSystem fs = FileSystem.get (conf).,; 

String outputDir = "newsClusters"; 

HadoopUtil.deletel(conf, new Path(outputDir)).; 

Path tokenizedrath = new Path (outputDir, 
DocumentProcessor,.TOKENIZED DOCUMENT OUTPUT FOLDER).; 5 

| Lr 
MyAnalyzer analyzer = new MyAnalyzer!{).: 
DocumentProcessor.tokenizeDocuments ! 


new Path (inputDir)}, analyzer.getClass't) 使 用 wyanalyzer 词 条 化 
.asSubclass (AnalyzZer.class), tokenizedPath, conf}),; 


DictionaryVectorizer.createTermFrequencyVectors! 
tokenizedPath, < 一 一 生成 TF 向 量 
new Path{(outputDir)}, conf, minSupport, maxNCramSize, 
minLLRValue, 2, true, reduceTasks, 
chunkSize, sequentialAccessOutput, false}):; 
TFIDFCOoONverter.processTfIidf < 了 一 一 生成 IDF 向 量 
new Path (outputDir, 
DictionaryVectorizer.DOCUMENT VECTOR OUTPUT FOLDER), 
new Path(outpeutDir}) , conf, chunkSsSize, 
minDf, maxDFPercent, norm, true, sequentialAccessOutput, 
false, reduceTasks).: 


Path vectorsFolder = new Path (outputDir, 


" /vectors").: 
Path centroids = new Path (outputDir, "jcentroids").; 
Path clusterOutput = new Path(outputDir, "/clusters").; 


RandomSeedGenerator.buildRandom(conf, vectorsFolder, centroids, 
20, new CosineDistanceMeasure!())}).; 


使 用 随机 中 心 的 


k-means 


clusterOutput, new CosineDistanceMeasure!(), 0.01, 


KmeansDriver.runJob(cont, vectorsFolder, centroids, 
20, true, false): | 


SequenceFile.Reader reader = new SequenceFile.Reader (fs, 
new Path(lclusterOutput, Cluster.CLUSTERED POINTS DIR 
+ "/pPoints/part-m-00000"}, conf).; 


这 里 的 代码 与 你 在 第 8 章 和 第 9 章 中 见 到 的 很 相似 。 区 别 是 我 们 不 再 使 用 standard- 
Analyzer， 而 是 使 用 Myanalyzer， 然 后 在 生成 的 向 量 上 执行 Kmeans 聚 类 。 在 Reuters 数 据 上 运 
行 完 代码 清单 10-7 的 聚 类 代码 之 后 ， 银 行 篮 中 的 前 10 个 词汇 如 下 所 示 : 


Top Terms: 


billion 二 > 4.766493374867332 
bank => 2.2411748607854296 
stg => 1.8598368697035639 
money => 1.7500053112049054 
mln => 1.7042239766168474 
bill => 1.6742077991552187 
dlr => 1.5460346601253139 
from => 1.5302046415514483 
pet => 1.52653028691]49873 
Surplus => 1.3873321058744208 


注 癌 ， 单词 都 用 PorterstemFilter 变 成 了 词 干 ，StopwordsFilter 则 保证 了 几乎 不 存在 
售 用 词 。 这 体现 出 选择 合适 的 特征 集合 对 于 改进 聚 类 质量 的 意义 。 


10.3.2 ”编写 自 定义 距离 测度 


如 有 果 问 量 的 质量 已 经 很 好 了 ,， 那 就 应 该 考虑 选择 合适 的 距离 测度 来 改进 聚 类 质量 。 我 们 已 经 
和 类 者 余弦 距离 对 于 文本 文档 聚 关 来 说 多 为 理想 。 为 了 展示 目 定 义 距离 测度 的 威力 , 我 们 设计 了 一 
个 增强 的 余弦 距离 测度 : 它 使 大 的 距离 更 大 ， 小 的 距离 更 小 。 与 编写 Analyzer 类 似 ， 编 写 一 
ee 

口 实现 DistanceMeasure 接 口 ; 

口 在 aistance(Vector v1，Vector v2) 方 法 中 编写 距离 测度 。 

我 们 更 改 后 的 余弦 距离 测度 如 代码 清单 10-8 所 示 。 


代码 清单 10-8 ”一 种 改进 的 余弦 距离 测度 


public class MyDistanceMeasure 


间 实现 DistanceMeasure 接 口 


implements DistanceMeasure { 
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QOverride 


Public double distance(Vector vi, 


jf (vli.sizel() 


I!= V2.size()) 


{ 


Vector v2) 


throw new CardinalityException(vi.size(), 


{ 


重 载 distance 方 法 


V2.size()); 


vil.getLengthSaquared (}); 
v2 .9etLengthSquared!{()}:; 


double lengthSauaredvi = 
double lengthSsaquaredv2 = 


double dotProduct = v2.dot (vi)}).: 


Math.sart (lengthSaquaredvi1) 
* Math.sgqrtilengthSsaquaredv2).;: 


double denominator = 


if {denominator < dotProduct) f 
denominator = dotProduct,; 
} 
double distance = 1.0 - dotProduct / denominator:; < 一 一 计算 距离 


if {distance < 0.5) { 
return {1 - distance}) * (distance * distance) 
+ distance * Math.saqrt (distance). 
} else return Math.sagrt (distance),; 
, | 返回 距离 测度 


GOverride 
public double distance{({double centroidLengthSgquare, 
Vector centroid, 
Vector vv) 1 
return distancel(centroid, Vv); 


} 


QOverride 


Public void createrParameters (String prefix, JobConf jobConf) {)} 


QOverride 
public Collection<Parameter<?>> getParameters{() { 
return Collections.empotyLigst().; 


| 


QOverride 
public void configure (JobConf argo0) 


} 
在 一 个 MapReduce 作 业 中 ， configure()、 getParameters () 和 createParameters() 等 


方法 用 来 在 各 个 作业 节点 中 为 DistanceMeasure 传 递 参 数 。 这 里 我 们 重点 关注 distance 阴 数 。 


{4 


它 首先 计算 标准 余弦 距离 测度 ， 然 后 又 通过 取 平 方 使 得 近 的 距离 变 得 更 近 ( 若 值 在 0 到 0.5 之 间 )， 
而 使 远 的 距离 更 远 。 
在 此 距离 测度 下 ， 一 些 有 趣 的 小 众 话题 浮 出 水 面 ， 这 是 之 前 不 曾 出 现 过 的 : 
排名 靠 前 的 词 项 : 
futures => 3.2517230513480757 
trading = 2.73124880187049 
exchange => 2.2752173132458906 
market => 2.0752484701513274 
Saidqd => 1.9316076421017707 
stock => 1.8062251904561821 
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New => 1.5571645992558176 


traders = 1.531255338250137 
index => 1.3630116680911748 
options 一 > 1.183384693735014 


注意 , 这 个 结果 是 从 standardAnalyzer 词 条 化 的 癌 量 中 生成 的 。 你 可 以 尝试 用 目 定 义 Lucene 
Analyzer 和 和 月 定义 的 DistanceMeasure 来 得 到 理想 的 聚 类 结果 ，。 


10.4 ”小 结 


在 本 章 中 ， 我 们 探讨 了 如 何 改 进 容 类。 算法、 距离 测度 以 及 数据 类 型 都 会 影响 聚 类 的 输出 。 
ClusterDumper 工 具 可 以 检查 任何 聚 类 算法 的 输出 各 个 艇 的 主要 特征 以 及 中 心 癌 量 。 这 可 以 
帮助 你 理解 聚 类 过 程 。 

对 于 海量 数据 集 , 手动 的 检查 所 有 艇 是 不 可 行 的 。 我 们 可 以 通过 簇 间 和 艇 内 距离 来 快速 得 到 
从 类 质量 的 评分 。 如 果 很 多 艇 都 靠 得 太 近 ， 就 需要 考虑 传统 k-means 以 外 的 方法 ， 看 看 部 分 从 属 
关系 或 混合 分 布 是 否 适 用 。 

编写 一 个 自 定 义 的 Lucene Analyzer 和 一 个 自 定 义 的 相似 性 度量 ， 有 助 于 在 标准 实现 的 基础 
上 进一步 改善 聚 类 质量 。 我 们 发 现 通过 尝试 自 定 义 度量 标准 来 改善 聚 类 质量 是 很 有 意义 的 。 

现在 ， 你 已 经 有 能 力 处 理 任 何 类 型 的 数据 ， 并 调 优 你 的 聚 类 算法 ， 使 其 更 好 地 工作 。 很 快 你 
将 遇 到 聚 类 中 最 大 的 困难 : 规模 。 幸 运 的 是 ，Mahout 可 以 将 TB 级 的 数据 分 散 到 庞大 的 Hadoop 集 
群 上 进行 处 理 。 下 面 ， 我 们 会 探索 Mahout 中 的 聚 类 算法 如 何 发 挥 Hadoop 的 作用 。 在 第 11 章 中 ， 
你 将 学 习 如 何在 Hadoop 集 群 上 运行 一 个 聚 类 作业 ， 并 使 你 的 聚 类 算法 应 用 于 具体 产品 。 


和 聚 类 用 于 生产 环境 


一 一 


本 章 内 容 

口 在 Hadoop 集 群 上 运行 聚 类 作业 
口 对 聚 类 作业 进行 性 能 调 优 

口 批 聚 类 及 在 线 聚 类 


前 面 我 们 已 经 看 到 ， 如 何 利用 不 同 的 Mahout 聚 类 算法 对 路 透 社 新 闻 数 据 集中 的 文档 进行 聚 
类 。 与 此 同时 , 我 们 也 学 到 了 数据 的 回 量 表示 、 距 离 测度 方法 和 其 他 多 种 可 以 提高 族 质 量 的 方法 。 
Mahout 的 一 个 优点 是 它 的 可 扩展 能 力 。 路 透 社 数 据 集 几 乎 不 具备 挑 成 性 ， 因 此 本 章 会 给 Mahout 
找 一 个 更 具 挑 战 性 的 任务 。 我 们 将 对 世界 上 极为 庞大 的 免费 数据 集 一 一 维基 百科 ( Wikipedia ) 这 
部 免费 百科 全 书 进行 聚 类 。Mahout 能 够 处 理 这 种 规模 的 数据 , 这 是 因为 其 算法 以 MapReduce 人 作业 
的 方式 实现 ， 而 这 些 作 业 能 够 在 成 百 上 千 台 计算 机 构成 的 Hadoop 集 群 " 上 运行 。 

遗憾 的 是 ,并非 所 有 人 都 能 访问 这 样 一 个 集群 。 在 本 革 中 为 示范 起 见 , 我 们 使 用 了 从 维基 百 
科 中 提取 的 一 个 文档 子 集 , 并 在 一 个 小 规模 的 集群 上 进行 了 实验 , 该 实验 能 够 说 明 通 过 增加 机 从 
来 获得 更 快 的 速度 。 我 们 一 开始 在 一 个 单机 的 Hadoop 环 境 〈 也 称 伪 分 布 式 Hadoop ， 具 体内 容 可 
以 参见 第 6 章 ) 我 们 还 将 考察 Mahout 的 启动 程序 , 它 能 够 很 容易 地 在 本 地 或 给 定 配置 文件 的 条 件 
时 在 任意 Hadoop 集 群 上 局 动 聚 类 作业 。 然 后 ,我们 讨论 如 何 对 案 类 作业 进行 性 能 凋 优 。 最 后 , 我 
们 讨论 如 何 利用 现 有 的 Mahout 聚 类 算法 来 设计 一 个 能 够 以 在 线 醒 式 进 行 增 量 式 聚 类 的 系统 。 


11.1 Hadoop 下 运行 聚 类 算法 的 快速 入 门 


首先 让 我 们 来 看 看 Hadoop 的 架构 。 

Hadoop 集 群 由 一 个 叫做 名 字 节 点 (NameNode， 也 称 主 节 点 ) 的 服务 器 及 其 控制 的 不 同 数据 
节点 (DataNode ) 组 成 。 名 字 节 点 也 用 于 同步 Hadoop 分 布 式 文件 系统 ( HDFS )。 另 一 个 称 为 
JobTracker 的 服务 硕 ， 负 责 管 理 折 有 的 MapReduce 任 务 以 及 集群 中 执行 Mapper 和 Reducer 的 计算 


QD) Ajay Anand 在 其 博文 “Scaling Hadoop to 4000 nodes at Yahoo!” 中 描述 了 2008 年 雅虎 在 4000 个 节点 上 运行 Hadoop 
的 情况 ， 该 博文 的 地 址 为 http://developer.yahoo.net/blogs/hadoop/2008/09/scaling hadoop to 4000 nodes a.html。 


11.1 Hadoop 下 运行 聚 类 算法 的 快速 入 门 173 


机 节点 。 在 每 一 个 节点 当中 ， 一 个 称 为 TaskTracker 的 进程 负责 管理 着 来 自 JobTracker 的 Mappez 或 
Reducer 执 行 请 求 。 

Hadoop 能 够 无 颖 地 实现 上 述 过 程 ， 并 且 不 需要 任何 用 户 干预 。 在 单方 点 集群 中 ， 名 和 字 节 点 、 
JobTracker、 数 据闻 点 和 TaskTracker 等 都 运行 在 同一 系统 下 ， 它 们 各 目 运 行 在 独立 的 进程 中 并 彼 
此 交互 。 

本 书写 作 之 时 ，Mahout 设 计时 计划 使 用 的 Hadoop 版 本 是 0.21 (不 过 它 应 该 与 更 新 的 版 本 
莱 容 )。 


11.1.1 ”在 本 地 Hadoop 和 集群 上 运行 聚 类 算法 


读者 可 以 在 网 页 http://wiki.apache.org/hadoop/QuickStart 中 找到 一 个 建立 本 地 伪 分 布 式 模式 下 
的 Hadoop 集 群 的 快速 人 门 。 你 需要 为 本 章 的 例子 建立 这 种 本 地 集群 。 
Hadoop 二 进 制 执行 文件 存放 在 Hadoop 主 目录 的 /bin 目 录 下 。 要 浏览 HDFS 的 内 容 ， 执 行 如 下 


人 AN 
x: 


可 


bin/hadoop dfs -ls / 
上 述 命 令 将 会 列 出 文件 系统 根 目 录 下 的 所 有 文件 。 

当 集 群 第 一 次 启动 时 , 你 的 主 目录 可 能 在 HDFS 中 不 存在 , 因此 需要 创建 一 个 /user/< 你 的 Unix 
用 户 名 > 的 目录 : 

bin/hadoop dfs -mkdir /user/< 你 的 Unix 用 户 名 > 
也 可 以 通过 如 下 命令 查看 主 目录 : 

bin/hadoop dfs -ls 

要 开始 在 你 当前 的 伪 分 布 式 集群 下 对 路 透 社 数据 进行 肾 类 ， 需 要 像 第 8 半 一 样 准 备 包 含 路 透 
社 本 地 文本 数据 的 SequenceFile 文 件 ， 并 将 它 复 制 到 HDFS 中 : 

bin/hadoop dfs -put <path-to>/reuters-sedfiles reuters-seqfiles 
利用 上 述 SequenceFile 作 为 输入 ,就 可 以 在 集群 上 运行 基于 词典 的 问 量 化 工具 然后 运行 
k-means 聚 类 算法 。 

任意 MapReduce 作 业 都 使 用 hadoop jar 命 令 来 执行 。Mahout 将 所 有 的 示例 类 文件 及 其 依赖 
关系 都 打 包 放 在 examples/target/mahout-examples-0.4-SNAPSHOT.job 下 的 单个 JAR 文 件 中 ,要 在 本 
地 Hadoop 集 群 下 运行 词典 癌 量 化 工具 来 处 理 路 透 社 SseauenceFile 输 入 文件 ， 只 需要 人 简单 地 对 
Mahout 作 业 文件 运行 如 下 hadoop jar 命 令 : 


bin/hadoop Jar mahout-examples-0.5-Job.Jar \ 
org.apache.mahout.vectorizer.SparseVectorsFromSequenceFiles \ 
-OW -1 reuters-seqftiles -0 reuters-vectors 


好 ， 就 是 这 样 ， 聚 类 算法 在 本 地 Hadoop 集 群 下 运行 。 如 果 使 用 默认 的 Hadoop 配 置 ， 并 且 如 
果 系 统 至 少 是 双核 处 理 硕 ， 那 么 就 有 两 个 Mapper 并 行 执行 ， 其 中 每 个 Mapper 运 行 在 一 个 核 上 。 
这 可 以 在 JobTracker 的 面板 ( 地址 为 :http://localhost:50030 ) 上 查看 ， 具 体 的 结果 如 图 11-1 所 示 。 
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lappy Hadoop Map/Reduce Administration 


State: RUNNING 

Started: Sun May 02 14:29:32 IST 2010 

Version: 0.20.2-dev, r 

Compiled: Mon Feb 8 03:33:04 IST 2010 by robinanil 
Identifier; 201005021429 


Cluster Summary (Heap Size is 26.19 MB/1.74 GB) 


Total Submissions | Nodes | Map Task Capacity | Reduce Task Capacity | Avg. Tasks/Node | Blacklisted Nodes 
0 Pr oo lo 


Scheduling Information 


Queue Name | Scheduling Information 


default N/A 


Filkter (Jobid, Priority, User Name) 
Example: User:smith 3200' will filter by ‘smith' only in the user field and 3200' in all fields 


Running Jobs 


Map % Map Maps Reduce % 
Complete Total |Completed |Complete 


ale ae A AAA 二 Pr mahout-examples-0.4- 100 NN ~ ~ N NN 


图 11-1 一 个 典型 的 Hadoop MapReduce JobTracker 的 页 面 截图 。 可 以 通过 访问 本 地 
Hadoop 和 集群 上 的 http://localhost:50030 地 址 来 访问 该 页 


11.1.2 ”定制 Hadoop 配 置 


如 采 有 两 个 核 , 那么 Hadoop 立 马 就 可 以 将 聚 类 的 本 地 运行 速度 提高 到 两 倍 , 关于 本 地 运行 在 
第 8 到 第 10 章 都 有 所 介绍 。 如 果 计 算 机 上 有 不 止 两 个 核 ， 可 以 修改 Hadoop 配 置 文件 将 Mapper 和 
Reducer 任 务 的 数 日 设置 成 一 个 更 高 的 值 ， 这 样 可 以 提高 计算 的 整体 运行 速度 。 安 装 后 的 Hadoop 
中 有 mapred-site.xml 配 置 文件 ， 需 要 根据 CPU 核 的 数 日 ， 将 其 中 的 mapred.map.tasks 和 
mapred.reduce.tasks 配 置 项 修改 为 合适 的 值 。 

每 增加 一 个 核 ， 并行 程度 就 增加 ， 运 行 时 间 就 会 减少 。 一旦 并 行 任务 数 达 到 单 太 点 的 峰值 ， 
那么 再 增加 任务 就 会 严重 降低 处 理 的 性 能 。 进 一 步 扩展 的 唯一 办 法 就 是 拥有 配置 相同 的 多 个 市 
点 ， 即 一 个 完整 的 分 布 式 Hadoop 集 群 。 


提示 可 以 在 Hadoop 网 站 的 如 下 地 址 http://hadoop.apache.org/docs/current/hadoop-project- 
dist/hadoop-common/ClusterSetup.html 找 到 一 个 一 步 步 建 立 分 布 式 Hadoop 集 群 的 快速 入 
门 。 在 0.20.2 及 更 高 的 Hadoop 版 本 中 ， 配 置 文件 被 分 成 conf 目 录 下 的 三 个 文件 : 
core-site.xml 、hdfs-site.xml 和 mapred-site.xml。 上 默认 的 配置 值 分 别 在 core-default.xml、 
hdfs-default,xml 及 mapred-default,xml 中 。 默 认 文件 给 定 的 参数 可 以 被 *.site.xml 文 件 中 的 值 
履 盖 。 调 整 MapReduce 参 数 通常 涉及 对 mapred-site.xml 文 件 的 编辑 。 
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在 分 布 式 Hadoop 集 群 下 运行 聚 类 代码 0 点 下 没有 什么 不 同 。bin/hadoop 脚 本 能 够 在 集 
群 中 启动 各 种 作业 ,这 些 作业 可 以 来 自 名 字 市 点 、 从 属 节 点 或 者 任意 可 以 访问 名 字 市 点 的 计算 机 。 
唯一 的 要 求 就 是 脚本 在 运行 时 要 通 ae CONF_DIR 环 境 变 量 访问 正确 的 配置 文件 。 

使 用 Mahout 启 动 脚本 在 Hadoop 集 群 下 执行 作业 

Mahout 也 提供 了 一 个 和 Hadoop 启 动 脚本 非常 像 的 bin/mahout 脚 本 来 启动 聚 类 作业 。 在 剖面 章 
节 中 , 该 脚本 被 广泛 用 于 以 单 进程 作业 的 方式 启动 聚 类 过 程 。 通 过 设置 HADOOP_HOME 和 HADOOP_ 
CONF_DIR 环 境 变 量 ， 上 述 脚 本 可 以 用 于 在 Hadoop 集 群 上 启动 任意 Mahout 算 法 。 该 脚本 将 目 动 读 
取 Hadoop 集 群 的 配置 文人 牛 并 在 集群 下 启动 Mahout 作 业 。 

一 个 典型 的 输出 结果 如 下 所 示 : 


export HADOOP HOME=~/hadoop/ 
GXport HADOOP CONF DIR=S$HADOOP HOME/contf 
bin/mahout kmeans 一 也 


running on hadoop, using HADOOP HOME=/Users/username/hadoop and 
HADOOP_ CONF_ DIR=/Users/username/hadoop/cont 


Mahout 启 动 脚本 通过 使 用 正确 的 集群 配置 文件 在 内 部 调用 了 Hadoop 的 启动 脚本 ,整个 过 程 如 图 
11-2 所 示 。 在 Mahout 中 , 启动 脚本 是 一 种 在 本 地 或 者 分 布 式 Hadoop 集 群 下 局 动 算法 的 最 简单 的 方式 。 


| 
L_ mahout-examples-XX-job.jar 


Er = 
= 


Hadoop 和 集群 


If HADOOP CONF DIR 
&& HADOOP HOME set 


EE 


mvn exec:java 


轩 
mahout-examples-XX-job.jar 
图 11-2 ”利用 Mahout 脚 本 启动 的 两 种 作业 执行 方式 的 逻辑 框图 
到 这 里 要 问 你 表示 祝贺 ,因为 你 已 经 在 Hadoop 下 运行 了 一 个 聚 类 作业 。 如 果 感 兴趣 的 话 , 你 


可 以 用 多 组 参数 进行 实验 来 调节 聚 类 的 质量 。 接 下 来 , 我 们 将 会 看 到 如 何 通过 调节 配置 来 获得 更 
高 的 聚 类 吞吐 量 和 性 能 。 
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11.2 聚 类 性 能 调 优 


Mahout 中 的 聚 类 算法 被 设计 成 并 行 执 行 。 尽 管 不 同 算法 之 间 有 差别 , 但 它们 在 某 个 方面 是 极 
其 类 似 的 ， 即 在 每 个 Mapper 中 它们 都 从 seauenceFile 文 件 并 行 的 谈 入 回 量 。 

聚 类 算法 中 的 很 多 操作 属于 计算 黎 集 型 ， 这 意味 看 这 些 操作 ， 如 回 量 序列 化 、 反 订 列 化 、 距 
离 计 算 等 都 会 使 CPU 满 负 合 运行 。 男 一 方面 ， 有 些 操 作 属 于 VO 密集 型 ， 比 如 通过 网 络 将 中 心 癌 
量 传 到 每 个 Reducer。 为 提高 聚 类 性 能 ， 需 要 理解 解决 上 述 两 类 性 能 瓶颈 的 一 些 技巧 。 下 面 将 会 
看 到 ，Mahout 中 的 多 个 参数 是 如 何 基于 输入 数据 的 类 型 产生 CPU 、 磁 盘 或 网 络 瓶 宽 的 。 

为 参考 起 见 ， 图 11-3 列 出 了 k-means 只 类 算法 的 原理 示意 图 。 其 他 像 模糊 k-means、 狄 利克 雷 
及 LDA 限 类 算法 的 架构 都 和 k-means 类 似 ， 因 此 对 k-means 的 优化 也 适用 于 这 些 算法 。 


并 行 Mapper 并 行 Reducer 
由 
时 


ee 二 
包含 问 量 的 每 个 Mapper 启 动 
时 读 取 中 心 回 量 


K-Means in MapReduce 


反复 运行 直至 收敛 


Solarelsy 3 全 区 = 


每 个 Reducer 从 每 个 Mapper 


获得 秘 内 所 有 点 的 部 分 和 ， 
每 个 Mapper 为 
一 个 向 量 计算 


最 近 的 中 心 向 量 
图 11-3 ”以 MapReduce 作 业 方 式 迭 代 运 行 的 k-means 聚 类 原理 示意 图 
聚 类 性 能 是 输入 数据 的 某 个 因数 。 为 调节 性 能 ,需要 分 析 输 入 的 不 同 分 布 并 确定 在 使 用 某 些 
聚 类 参数 时 可 能 遇 到 的 性 能 缺陷 。 下 面 我 们 首先 看 看 如 何 减少 CPU 瓶颈 甚至 在 某 些 情况 下 完全 避 
11.2.1 在 计算 密集 型 操作 中 避免 性 能 缺陷 


当 使 用 频 索 的 函数 开始 变 慢 时 , CPU 的 性 能 会 下 降 。 在 聚 类 中 , 距离 计算 是 计算 密集 型 操作 ， 
因此 该 计算 越 快 ， 整 个 作业 也 就 越 快 。 当 跟踪 聚 类 中 的 CPU 相关 性 能 时 ， 必 须 记 住 如 下 原则 。 
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1. 采用 合适 的 向 量 表示 

在 Mahout 的 所 有 3 个 vector 类 中 ，DenseVector 通 稍 是 最 快 的 一 个 。 可 以 快速 访问 该 回 量 
中 的 任意 一 个 元 素 ， 也 可 以 高 效 地 顺序 访问 所 有 元 素 。 Eee 
则 会 导致 十 分 严重 的 性 能 问题 。 当 用 pensevVector 表 示 一 个 存在 很 多 零 元 素 的 回 量 时 ， 会 当 费 
很 多 存储 的 空间 , 而 这 些 空间 在 稀 蕊 表示 下 是 根本 不 需要 的 。 这 也 意味 着 很 多 数据 做 了 没有 必要 
的 序列 化 处 理 ， 并 且 在 厦 望 忽略 零 元 系 的 环境 下 近 历 了 很 多 雪 元 素 。 

举 个 例子 , 比如 你 在 对 十 分 稀 芷 的 文本 回 量 数据 ( 非 去 元 系 大 概 占 整 个 向 量 维度 的 百 分 之 一 ) 
进行 聚 类 。 那么 在 本 地 系统 上 运行 时 ， 使 用 sparevector 的 聚 类 速度 会 是 使 用 pensevVectoz 的 
两 倍 ， 而 在 分 布 式 系统 上 运行 ,前 者 要 比 后 者 快 10 倍 。 分 布 式 聚 类 之 所 以 会 来 带 来 额外 的 性 能 提 

是 由 于 用 DenseVector 表 示 时 传输 了 不 逢 要 传输 的 0 学 市。 

因此 ,通常 最 好 将 数据 表示 成 sparseVector， 这 是 因为 即使 有 些 稀 玖 ，sparseVector 表 
示 也 能 大 幅度 节省 存储 、 反 序列 化 和 网 络 传输 市 来 的 开销 。 

2. 使 用 更 快 的 距离 测度 方法 

限 类 算法 频繁 计算 距离 ， 因此 实现 快速 的 距离 计算 相当 关键 。 距离 计算 速度 的 提高 会 直接 影 
啊 算 法 整体 性 能 。 

如 采 你 在 实现 目 己 的 距离 测度 方法 ,请 避 从 下 面 的 最 佳 实践 经 验 。 

口 避免 复制 或 者 实例 化 一 个 新 的 Vector 对 象 。Vector 是 重量 级 的 Java 对 象 ， 对 它们 进行 复 

制 会 严重 损害 性 能 。 
口 如 果 距 离 测 度 只 需要 非 云 元素 ， 那 么 就 应 该 避免 对 所 有 元 素 角 历 。 此 时 使 用 
Vector.iterateNonzZero() 途 代 吕 而 不 是 Vector.iterator()。 
en eh ) 方法 来 高 效 届 历 和 修改 向 量 。 通 过 附件 
B 可 以 了 解 更 多 关于 回 量 的 知识 。 

3. 根据 距离 计算 使 用 sparseVector 类 型 

有 两 种 稀 玖 问 量 的 实现 ， 最 好 使 用 适合 距离 计算 的 实现 。RandomAccessSparseVector 擅 
长 于 随机 查找 ， a 顺序 访问 。 

例如 ， 计算 余弦 相似 度 需要 很 多 疝 量 点 积 运 算 ， 这 需要 在 两 个 向 量 上 依次 过 历 元 素 。 实 现代 
码 需要 将 两 个 回 量 匹配 位 置 上 的 什 相 乘 。 很 目 然 地 ， 对 于 这 种 距离 计算 中 的 顺序 访问 模式 
SequentialAccessSparseVector 是 最 理想 的 ， 此 时 它 已 会 远 远 元 快 于 RandomAccessSparse- 


Vector。 将 所 有 文档 向 量 保 存 为 顺序 格式 会 给 距离 计算 带 来 巨大 提升 从 而 提高 肾 类 的 整体 性 能 


提示 Mahout utils 包 中 有 一 个 称 为 VvectorBenchmarks 的 工具 类 。 它 在 密集 型 、 随 机 访问 型 和 
顺序 访问 型 向 量 上 使 用 不 同类 型 的 向 量 运 算 从 而 对 比 它们 的 速度 。 如 果 你 定制 的 距离 测 
度 方法 需要 很 多 某 种 类 型 的 向 量 运 拭 ， 那么 就 可 以 使 用 该 工具 类 来 寻找 菜 个 稀 足 水 平 上 
执行 该 运算 最 快 的 向 量 类 型 。 在 mahou-utils 模 块 的 org.apache.mahoutbenchmark 包 中 可 以 
找到 这 个 工具 。 


11.2.2 ”在 MO 密集 型 操作 中 避免 性 能 缺陷 


通常 影响 VO 性 能 最 大 的 是 程序 读 取 和 写 入 的 数据 量 。 在 Hadoop 作 业 下 ， 这 些 读 / 写 操作 大 部 

分 是 顺序 的 。 减 少 写 人 的 字 节 量 能 够 极 大 地 提高 整体 的 聚 类 性 能 。 为 降低 VO 瓶 令 ， 必 须 牢 记 如 
下 的 几 条 原则 。 

1. 使 用 合适 的 向 量 表示 

这 一 点 很 明显 。 正 如 前 面 解释 的 那样 ， 你 永远 不 要 将 稀 跑 问 量 保存 成 DenseVector 对 象 。 
这 样 做 会 使 磁盘 存储 量 极度 膨胀 从 而 导致 聚 类 算法 的 磁盘 和 网 络 MO 瓶 颈 。 

2. 使 用 HDFS 副 本 

HDFS 上 的 任 一 文件 默认 情况 下 都 会 在 集群 的 不 同 节点 上 保存 有 三 个 副本 。 这 样 做 能 够 防止 
某 个 节点 上 的 副本 丢失 ,， 另 外 它 还 能 提高 性 能 。 如 果 数 据 只 存放 在 一 个 节点 上 , 那么 所 有 需要 这 
份 数据 的 的 Mapper 和 Reducezr 都 会 访问 这 个 节点 。 这 就 会 造成 访问 瓶颈 。 副 本 能 够 允许 HDFS 
在 不 同 服务 器 上 保存 文件 块 , 这 样 就 可 以 让 Hadoop 选 择 计算 的 初始 化 节点 , 从 而 能 够 解除 上 述 网 
络 ILO 瓶 颈 。 继 续 增加 副本 数目 湾 在 上 能 够 进一步 解除 上 述 瓶 须 ， 但 是 这 也 意味 着 需要 更 多 的 
HDFS 存 储 开 销 。 只 有 在 由 于 副本 数目 不 够 导致 瓶 宽 的 情况 下 才 考 虑 这 样 做 。 

3. 减少 艇 的 数目 

在 聚 类 中 ， 禾 通常 表示 为 很 大 的 密集 癌 量 ， 每 个 回 量 都 消耗 相当 大 的 存储 空间 。 如 果 聚 类 作 
业 试 图 寻找 的 艇 数目 (k) 较 多 ， 那 么 这 些 癌 量 就 会 通过 网 络 从 Mapper 传 输 给 Reducer。 如 果 
较 小 , 那么 就 可 以 减少 网 络 VO 的 开销 。 同时 ,这样 也 会 减少 k-means 和 模糊 k-means 算法 中 距离 计 
算 的 开销 ， 而 原来 每 个 复 中 心 的 距离 计算 开销 都 会 按 磁盘 上 点 的 数目 来 增加 。 

当 必 须要 将 数据 聚 成 较 多 数目 的 禾 时 ,可 以 将 数据 放 在 Hadoop 上 并 增加 更 多 的 机 需 来 让 它 目 
己 扩展 。 但 是 可 以 通过 使 用 一 个 两 步 的 批 聚 类 方法 将 距离 计算 和 聚 类 时 间 减 少 一 个 数量 级 。 这 种 
做 法 能 够 加 快 极 大 规模 数据 集 如 维基 百科 的 聚 类 速度 。 

还 有 一 种 做 法 , 我 们 可 以 探索 更 好 的 增 量 式 聚 类 方法 来 减少 聚 类 算法 需要 检查 的 数据 量 。 这 
种 做 法 有 助 于 在 线 聚 合 右 ( 如 新 闻 网 站 )， 当 新 闻 报 道 到 来 时 上 自动 将 它们 加 到 某 个 复 中 。 下 一 节 
当中 将 会 解释 上 述 两 种 做 法 。 


11.3 批 聚 类 及 在 线 聚 类 


我 们 重新 回 到 第 9 章 提 到 的 AllMyNew.com 在 线 新 闻 门 户 网 站 。 我 们 发 现 该 网 站 的 相关 新 闻 功 
能 的 实现 可 以 看 成 是 一 个 简单 的 聚 类 问题 。 但 是 聚 类 却 得 不 到 我 们 想 要 的 最 终 输 出 结果 。 假设 该 
门户 有 大 约 100 万 篇 新 闻 报 道 。 我 们 要 做 的 是 产生 最 多 100 篇 文档 构成 的 簇 , 否则 相关 文章 的 列表 
太 大 不 可 用 。 但 这 也 意味 者 需要 产生 10 000 个 禾 。 

这 不 是 解决 上 述 问题 的 好 办 法 。 尽 管 Hadoop 可 以 允许 我 们 向 上 扩展 来 完成 上 述 任 务 , 但 是 会 
浪费 大 量 的 CPU 和 磁盘 , 而 这 些 都 是 需要 花 钱 的 。 一 个 更 好 的 办 法 是 将 所 有 文章 划分 成 100 个 大 艇 ， 
然后 ， 对 每 个 大 约 10 000 篇 文 草 的 族 ， 进 一 步 将 它 聚 成 100 个 更 小 的 和 ,这 个 过 程 如 图 11-4 所 示 。 
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图 11-4 采用 两 步 方 式 来 应 用 k-means 算法 。 一 个 拥有 10 000 个 艇 的 单个 大 MapReduce 
过 程 将 有 Nx106x104 次 距离 计算 ， 其 中 NN 是 迭代 的 次 数 。 男 一 方面 ， 将 整个 问 
题 层 次 化 为 两 层 之 后 只 有 N1x106x102+N2x104x102x102 次 距离 计算 ， 整 个 计 
算 次 数 差 不 多 减少 了 100 倍 


在 过 去 的 示例 中 ， 我 们 一 次 性 的 对 所 有 文章 聚 类 ， 这 叫 批 聚 类 ( batch clustering ) 或 离线 聚 

类 ( offline clustering )。 但 是 随 肴 新 闻 门 户 中 新 文章 的 不 断 到 达 ， 这 些 新 文章 也 需要 被 聚 类 。 如 

采 只 是 因为 这 些 新 文章 就 要 重新 反复 运行 批 聚 类 作业 的 话 , 那 代价 就 太 昂 贯 了 。 即使 这 些 批 育 类 

作业 每 个 小 时 运行 一 壳 , 那 在 一 个 小 时 内 , 我 们 还 是 无 法 识别 与 新 文章 相关 的 文章 。 这 显然 不 是 
0 吉 朱 。 

介绍 在 线 聚 类 ( online clustering ) 技术 ， 它 的 目标 是 在 对 已 有 对 象 聚 类 后 对 新 对 象 高 效 


11.3.1 案例 分 析 : 在 线 新 闻 聚 类 


这 里 的 在 线 聚 类 并 非 芮 的 在 线 或 者 芮 的 即时 聚 类 。 有 一 些 对 数据 流下 接 进 行 聚 类 的 算法 , 但 
是 它们 在 扩展 时 会 有 问题 。 而 我 们 考虑 的 是 下 面 的 技术 。 

口 同 前 面 讨论 的 那样 ， 我 们 对 100 万 篇 文章 聚 类 ， 并 保存 所 有 秘 的 中 心 。 

口 对 每 篇 新 文档 , 我 们 周期 人 方法 将 它 分 配 到 离 它 最 近 近 的 复 中 , 计算 时 使 
用 一 个 非常 小 的 距离 国 仁 。 这 可 以 保证 和 先前 主题 有 关 的 文 曹 会 和 该 主题 关联 并 立即 显 
示 在 网 站 上 。 这 些 归 人 已 有 禾 的 文章 会 被 从 新 文档 列表 中 删除 。 

口 所 有 剩余 的 不 能 归 人 已 有 复 的 文章 形成 新 的 多 个 canopy, 这 些 canopy 代 表 了 新 闻 中 已 经 出 
现 但 是 与 过 去 的 任何 文章 都 不 匹配 或 匹配 度 很 小 的 主题 。 
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口 利用 这 些 新 canopy 的 中 心 , 对 与 已 有 复 不 相关 的 文章 进行 聚 类 , 并 将 这 些 临 时 的 和 族 中 心 加 
入 到 中 心 列表 中 。 
口 不 太 频 繁 地 执行 完整 的 批 罕 类 算法 来 对 全 部 文档 集合 进行 肾 类 。 这 样 做 的 时 候 ， 将 所 有 
己 有 的 禾 中 心 作为 算法 输入 从 而 聚 类 算法 可 以 更 快 地 收敛 。 
这 里 的 关键 是 确 你 增 量 式 canopy 聚 闫 能 够 尽 可 能 快 地 完成 , 从 而 用 户 能 够 在 新 闻 报 过 发布 数 
分 钟 之 内 就 能 看 到 相关 文档 族 。 通 过 一 个 专用 节点 很 容易 实现 这 一 点 。 态 一 种 做 法 是 将 报道 的 发 
布 时 间 延 迟 几 分 钟 百 到 相关 文档 族 产 生 为 止 。 
上 面 这 个 例子 表明 , 某 个 解决 方案 可 能 会 很 容易 耗 尽 所 有 的 资源 , 能 扩展 也 不 意味 看 就 应 该 
使 用 大 量 资源 。 我 们 也 可 以 在 一 个 专用 的 数 千 节 点 的 集群 上 运行 完整 的 聚 类 算法 , 但 是 这 样 做 会 
当 费 钱 。 稍 微 用 点 聪明 才智 就 可 以 得 到 一 个 更 便宜 也 更 快 的 解决 方案 。 


11.3.2 ”案例 分 析 : 对 维基 百科 文章 聚 类 


维基 百科 的 文 草 每 晚 都 会 导出 为 XML 文件 并 可 从 如 下 链接 下 载 : http://dumps.wikimedia. 
org/enwiki/。 这 是 一 个 神奇 的 数据 集 。 由 于 是 人 工 编 辑 和 组 织 的 ， 很 多 文章 在 维基 百科 中 仍然 没 
有 分 组 或 者 进行 了 错误 分 组 。 你 可 以 尝试 在 这 些 文章 上 运行 聚 类 算法 来 获取 相关 文档 , 这 没准 还 
能 帮助 编辑 人 员 在 维基 百科 网 站 上 将 相关 文章 分 组 呢 ! 

在 尝试 对 文章 聚 类 之 前 ， 需 要 从 XML 格式 的 文件 中 提取 文档 和 回 量 。 和 幸运 的 是 ，Mahout 中 
文章 。 对 于 本 实验 的 目的 而 言 ， 我 们 将 提取 科技 分 类 下 的 所 有 文档 。 

首先 , 从 前 面 提 到 的 网 站 下 来 最 新 的 pages-articles.xml.bz2 文 件 。 将 该 文件 解压 到 本 地 目录 然 
后 上 传 到 HDFS。 假 设 Hadoop 的 环境 变量 已 经 设置 好 ， 运 行 如 下 的 维基 百科 提取 命令 : 


echo "science'" > categories .txt 
bin/mahout seqwiki -cc categories.txt -i articles.xml \ 


-0 wikipedia-seqfiles -e 

上 述 命 令 会 从 XML 文 件 中 提取 那些 维基 百科 分 类 与 science 精 确 匹 配 的 文章 然后 将 这 些 文 
佛 写 到 sequenceFile 中 。 对 于 该 输入 可 以 运行 SparseVectorsFromSequenceFiles 作 业 
来 创建 维基 百科 的 TF-IDF 向 量 。 然 后， 在 其 上 可 以 运行 任意 聚 类 算法 。 整 个 过 程 会 持续 一 段 
时 间 。 

一 旦 成 功 运行 聚 类 算法 之 后 , 你 可 能 想 通 过 实验 来 观察 比如 向 量 表 示 对 肾 类 算法 的 影响 。 在 
词典 向 量化 工具 中 使 用 -seq 标 志 将 问 量 创建 为 SequentialAccessSparseVector。 这 将 会 比 默 
认 创 建 的 RandomAccessSparseVector 要 快 。 

一 旦 有 足够 的 信心 对 Wikipedia 样 本 集聚 类 ， 那 么 通过 如 下 命令 提取 所 有 数据 并 对 它 回 量化 : 

bin/mahout seqwiki -all -i articles.xml -oO wikipedia-seqfiles 


如 琳 不 访问 一 个 强大 的 Hadoop 集 群 , 那么 上 述 命令 会 在 单机 上 执行 大 约 一 整 天 。 万 一 种 做 法 
是 在 云 上 运行 ， 具体 做 法 将 在 下 面 看 到 。 
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在 亚马逊 弹性 MapReduce 下 运行 维基 百科 聚 类 

一 种 比较 便宜 的 实现 Mahout 的 方法 是 从 类 似 亚马逊 弹性 MapReduce ( Amazon Elastic 
MapReduce，EMR ) 云 服 务 中 购买 Hadoop 集 群 时 间 。 本 书 的 6.6 闻 给 出 了 如 何 访问 该 资源 的 快速 
故人 大 6 

如 果 你 觉得 亚马逊 弹性 MapReduce 服 务 还 不 错 的 话 ， 可 以 像 下 面 这 样 运行 Mahout 算 法 。 

(1) 将 Mahout 作 业 文 件 ( mahout-examples-0.5-job.jar ) 上 和 载 到 一 个 Amazon S3 bucket。 

(2) JAR 文 件 出 填 上 *-job.jar 文 件 的 目录 。 

(3) 为 需要 运行 的 算法 的 驱动 类 指定 完整 的 类 名 及 其 参数 ， 该 类 的 类 名 或 许 是 org. apache . 
mahout.clustering.kmeans .KMeanSsDL1IVer。o 

(4) 指定 存储 在 S3 bucket 中 的 维基 百科 疝 量 文件 的 完整 输入 路 径 以 及 族 的 完整 输出 路 径 。 

(5) 指定 其 他 需要 的 MapReduce 参 数 ， 比 如 机 桥 的 数目 。 记 住 ， 每 个 计算 单元 按 小 时 计 费 ， 
此 大 规模 集群 很 快 就 会 花费 很 多 钱 。 

(6) 运行 作业 。 

你 可 以 通过 上 传 sequenceFi le 并 运行 Spars eVectorsFromSequenceF1i le 类 有, 按照 相 同 
流程 来 直接 使 用 EMR 服 务 生成 向 量 。 

在 写 这 本 书 的 时 候 , 用 了 8 记 点 的 集群 大 概 1 个 小 时 来 将 维基 百科 的 SeauenceFile 转 换 成 回 
量 。 聚 类 的 时 间 蜗 度 依赖 于 初始 的 中 心 、 距 离 计算 方 法 和 禾 的 数 日 ， 当 然 也 取决 于 计算 所 用 的 机 
途 数 日 。 要 永远 记 住 ， 计 算 不 是 免费 的 。 
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在 这 一 草 里 ， 我 们 简单 看 了 看 Hadoop 集 群 以 及 如 何在 它 上 面 运行 聚 类 作业 。 我 们 还 讨论 了 
Mahout 启 动 脚本 及 其 两 种 操作 模式 。 

我 们 讨论 了 聚 类 性 能 中 的 多 个 问题 ， 并 分 析 了 可 以 缓解 聚 类 时 CPU 和 LIO 瓶 锋 的 多 项 技术 。 
正确 的 回 量 表示 和 优化 的 距离 算法 是 高 性 能 聚 类 应 用 的 关键 。 

我 们 也 将 上 述 知识 用 于 一 个 假想 的 新 闻 聚 合 门户 一 一 AlIMyNews.com 的 伪 在 线 聚 类 5 引擎 的 
实现 中 。 加 入 一 点 点 精心 设计 之 后 , 通过 使 用 多 种 技术 的 组 合 ,， 整个 大 的 聚 类 问题 被 划分 成 多 个 
简单 快速 的 小 问题 , 这 样 系统 中 就 可 以 达到 近似 实时 的 相关 文档 聚 类 效 采 。 为 突出 Mahout 的 聚 类 
扩展 能 力 , 我 们 试图 对 一 个 当前 最 大 的 公开 数据 集 即 英文 的 维基 百科 进行 聚 类 。 由 于 整个 过 程 很 
慢 ， 我 们 快速 讨论 了 如 何 通过 使 用 亚马逊 弹性 MapReduce 服 务 云 来 进行 多 节点 聚 类 的 过 程 。 

通过 上 述 采 例 ， 可 以 学 到 在 Hadoop 和 集群 上 运行 Mahout 及 对 其 进行 扩展 的 知识 。 本 书 到 达 本 
章 这 一 部 分 的 旅程 并 不 简单。 我 们 一 开始 在 第 8 革 介 绍 了 在 平面 上 对 点 进行 聚 类 的 基本 知识 ， 那 
里 我 们 学 到 了 向量 及 距离 计算 方法 ,然后 我 们 尝试 了 Mahout 中 的 多 种 算法 并 试图 将 它们 应 用 于 实 
| 味 肥 例 中 。 我 们 从 小 规模 非 分 布 式 计算 逐渐 过 渡 到 大 规模 分 布 式 计算 。 同 时 ,你 也 学 会 了 如 何 调 
整 算 法 的 速度 和 质量 。 下 一 章 ， 即 第 12 音 ， 你 将 把 学 到 的 知识 应 用 到 实际 蓉 例 中 。 


聚 类 的 实际 应 用 


本 章 概要 

口 将 有 相同 兴趣 的 Twitter 用 户 聚 类 到 一 起 
口 利用 聚 类 为 Last,Fm 上 的 艺术 家 推 存 标签 
口 为 网 站 构建 相关 帖子 的 功能 


或 许 你 拿 起 这 本 书 是 想 学 习 和 理解 聚 类 是 如 何 解决 实际 问题 。 迄 今 为 止 , 我 们 主要 集中 探讨 
了 路 透 社 新 闻 数 据 集 上 的 聚 类 问题 ， 这 个 数据 集 大 约 有 20 000 篇 文档 ， 每 般 文 档 大 约 有 1000 到 
2000 词 。 该 数据 集 对 于 Mahout 来 说 并 不 足以 构成 挑战 ， 无 法 显示 出 Mahout 的 扩展 能 力 。 本 章 当 
中 ， 我 们 主要 使 用 聚 类 算法 来 解决 三 个 大 得 多 的 数据 集 上 的 聚 类 问题 。 

首先 ， 我 们 尝试 使 用 来 自 Twitter ( http://twitter.com ) 的 公开 推 文 ， 通 过 聚 类 寻找 推 文 内 容 相 
似 的 用 户 。 其 次 ， 我 们 会 考察 一 份 来 日 Last.fm ( http://last.fm ) 的 数据 集 ， 该 网 站 是 一 个 流行 的 
互联 网 电台 , 我 们 利用 这 些 数据 来 产生 相关 的 标签 。 最 后 , 我 们 使 用 一 个 著名 技术 论坛 网 站 Stack 
Overflow( http://stackoverflow.com ) 导出 的 全 部 数据 ， 该 数据 包括 500 000 个 问题 和 200 000 个 用 
户 。 我 们 利用 该 数据 来 实现 网 站 的 相关 特性 功能 。 

第 一 个 问题 是 通过 对 Twitter 的 推 文 聚 类 来 找到 相似 用 户 。 


12.1 发 现 Twitter 上 的 相似 用 户 


Twitter 是 一 个 提供 微 博 服务 的 社交 网 站 , 用 户 可 以 公开 发 布 简短 的 消息 ， 称 为 推 文 (tweet )。 
这 些 推 文 最 多 包含 140 个 字符 。 推 文 一 旦 发 布 ， 它 就 会 出 现在 该 推 文 作者 的 所 有 粉丝 的 订阅 信息 
流 中 ， 并 且 该 推 文 在 Twitter 网 站 公开 可 见 。 这 些 推 文 有 时 会 包含 某 些 特殊 格式 的 关键 词 ， 例 如 
#Obama， 或 者 直接 通过 @ 符 号 引入 其 他 用 户 的 名 字 ， 如 aseanowen。 

由 于 Twitter 新 的 服务 条 区 不 允许 公开 发 布 数据 集 ， 因 此 需要 你 自己 来 准备 这 些 数据 。 在 本 书 
的 源码 当中 ， 有 一 个 称 为 TwitterDownloader 的 类 能 够 从 Twitter 上 获取 100 000 条 推 文 (可 以 在 
源码 中 修改 这 个 数字 ) 并 写 到 一 个 文件 中 ， 该 文件 可 以 用 于 后 续 的 分 析 过 程 。 获 得 100 000 条 推 
文大 约 需要 两 小 时 。 
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注意 ， 要 运行 上 述 程序 ， 必 须要 在 https:Wdev.twitter.comy/apps 注 册 你 的 应 用 ， 并 从 Twitter 获得 一 
个 认证 密 钥 ， 然 后 按照 源码 中 的 描述 将 该 窗 钥 值 写 到 程序 中 。 在 运行 时 不 要 忘 了 加 上 
-Dfile.encoding=UTE-8 和 选项， 否则 会 丢失 所 有 非 ASCII 的 字符 。 


12.1.1 数据 预 处 理 及 特征 加 权 


我 们 需要 对 上 述 数据 进行 预 处 理 ， 将 其 换 成 Mahout 文 持 的 格式 。 首 先 需 要 将 其 转换 成 可 
以 被 词典 回 量 化 工具 谈 取 的 seauenceFile 格 式 。 然 后 ， 再 利用 TF-IDF 权 重 计 算 ， 将 其 转换 
成 问 量 。 

词典 向量 化 工具 期 望 的 输入 包含 一 个 Text 类 型 的 键 和 值 。 这 里 的 键 将 是 Twitter 的 用 户 名 , 而 
值 将 是 该 用 户 发 表 的 所 有 推 文 的 拼接 。 

MapRuduce 作 业 很 适合 完成 上 述 输入 的 准备 工作 。Mapper 读 入 数据 中 的 每 一 行 ， 即 通过 制 
表 符 分 隔 的 用 户 名 、 时 间 戳 和 推 文 。 然 后 将 用 户 名 作为 键 ， 推 文 作 为 输出 。Redqucez 接 收 来 目 同 
一 用 户 的 所 有 推 义 ,然后 把 它们 连接 成 一 个 字符 串 ， 并 将 它 作 为 值 输 出 ， 此 时 键 仍然 为 用 户 名 。 
上 述 结 果 会 被 写 入 到 sequenceFile 文 件 中 。 

下 述 过 程 中 的 Mappet 、 Reducer、 Configurat ion 类 及 在 Hadoop 集 群 中 调用 它们 的 一 个 作 
业 均 列 在 代码 清单 12-1 和 代码 清单 12-2 中 。 其 中 MapReduce 头 是 一 个 通用 的 按 字 段 分 组 的 


Mapper., 


代码 清单 12-1 按 字 上段 分 组 的 Mapper 


Public class ByKeyMapper extends Mapper<LongWritable,Text, Text,Text> 1{ 
Private Pattern splitter = Pattern,.compile{(" \t").; 
private int selectedFielqd = 1; // tweet 
private int groupByField = 0; // username 
GOverride 


protected void map lLongWritable key, Text value, 
Context context) throws IOExCeption, 


TribePrm een ieon. 1 | 利用 正则 表达 式 
string[] fields = splitter.split{value.toString!{(})}).; 对 行进 行 分 割 
if (fields.length - 1 < selectedFielqd || 

fields.length - 1 < groupByField) f 
context .getCounter _ 对 行 错 误 计 数 
"Map", "LinesWithErrors") . increment ( 1) ， 
return: 


) 


String oKey = fieldas[grcoupByField]， 
String ovVvalue = fieldslselectedrield!]; 输出 用 户 名 和 推 文 


context.writelnew Text (loKey), new Text (ovValue)).; 
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代码 清单 12-2 ” 按 字 有 段 分 组 的 Reducer 
public class ByKeyReducer extends Reducer<Text,Text,Text,Text> { 
@Override 
protected void reduce (Text key, 
Iterable<Text> values, 
Context context} 1 
StringBuilder output = new StringBuilder!().; 


| 读 入 用 户 的 推 文 
for (Text Value : Values) 1 
, output.append (value.tostring()}).append(" "),; | 产生 拼接 的 字符 串 


context.write(key, new Text! 


output.toSsString{() .trim())}))}); | 给 出 拼接 后 的 字符 串 

} 

一 旦 作业 运行 ,用户 的 推 文 就 会 被 拼接 成 文档 大 小 的 字符 串 并 写 人 到 SequenceFile 中 。 然 
后 ， 该 输出 结 末 会 被 转换 成 TF-IDF 同 量 。 在 运行 基于 词典 的 癌 量 化 工具 之 前 , 我 们 值得 花 一 些 时 
则 来 更 好 地 了 人 解 Twitter 数 据 并 识别 一 些 简 单 有 用 的 改进 点 ， 这 些 点 有 助 于 特征 选择 和 加 权 。 


12.1.2 ”避免 特征 选择 中 的 常见 陷阱 


TF-IDF 是 一 种 非常 有 效 的 特征 权重 计算 方法 , 前 面 我 们 已 经 用 过 多 次 。 如果 将 它 应 用 于 单独 
的 一 条 推 文 ， 由 于 文本 最 多 只 有 140 个 字符 或 者 说 大 约 总 共 25 个 单词 ， 所 以 大 部 分 单词 的 频率 都 
是 1。 我 们 感 兴 趣 的 是 将 推 文 类似 的 用 户 聚 类 ， 因 此 我 们 创建 的 数据 集中 包含 用 户 所 有 的 推 文 而 
不 只 是 一 条 推 文 。 这 样 的 话 使 用 TD-IDF 会 更 有 意义 ， 聚 类 也 会 更 有 意义 。 

百 接应 用 TF-IDF 效 末 会 一 般 。 如 条 将 推 文中 凋 见 的 停 用 词 去 卸 效 末 会 更 好 。 我 们 使 用 词典 癌 
量化 工具 并 将 最 大 的 文档 频率 比率 参数 设置 为 一 个 较 低 的 值 ， 比 如 50%。 这 会 去 掉 所 有 出 现在 一 
半 以 上 文档 中 的 单词 。 我 们 还 使 用 该 工具 中 的 搭配 特征 来 生成 Twitter 数据 中 的 二 元 组 (bigram ) 
并 将 它们 也 用 作 聚 类 特征 。 

但 是 这 里 存在 一 个 问题 。 推 文 是 一 种 写作 上 比较 随便 的 消息 ,而 不 像 路 透 社 新 闻 语 料 中 的 文 
本 那样 经 过 精心 编辑 加 工 。 因 此 ， 推 文中 包含 拼写 错误 、 省 略 、 倡 语 和 其 他 的 文本 变化 方式 。 三 
个 用 户 写 的 三 条 如 下 推 文 之 间 由 于 没有 任何 公共 词 ， 因 此 永远 无 法 将 其 聚 类 到 一 起 : 

HappyDad7: "Just had a refreshing bottle of Loke' 


BabyBoy2010: "I love Loca Kola" 
Cool Dude9: "Dude me misssing LLokkkeeel!!l!ll" 


为 解决 上 述 问 题 ， 可 以 通过 语音 过 滤 郝 (phonetic filter ) 来 发 现 上 述 拼写 之 间 的 关系 。 这 些 
语音 过 滤 希 将 单词 还 原 为 一 个 能 够 接近 单词 大 致 发 音 的 基本 形式 。 比 如 , Loke 和 Loca 可 能 都 被 还 
原 成 LEK， 而 单词 refreshing 可 能 被 还 原 成 RFRX。 上 述 过 程 至 少 有 三 种 车 名 的 实现 方法 : Soudex、 
Metaphone 和 Double Metaphone。 所 有 方法 都 实现 于 Apache Commons Codec 库 中 "。 下 面 我 们 使 用 


GD Apache Commons Codec 包 的 层次 结构 参见 http://commons.apache.org/codec/apidocs/org/apache/commons/codec/language/ 
package-tree.html。 
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DoubleMetaphone 实 现 方法 来 将 每 个 词 转换 成 其 基本 发 音 的 形式 。 下 面 的 代码 清单 给 出 了 使 用 
DoubleMetaphone 的 一 个 Lucence Analyzer 实 现 示 例 程 序 。 
代码 清单 12-3 ”为 推 文 优化 的 Lucene Analyzer 类 


public class TwitterAnalyzer extends Analyzer { _ 初始 化 编码 器 
private DoubleMetaphone filter = new DoubleMetabhone rr ) ; 


GOverride 

PUublic TokenStream tokenSstream!(Sstring fieldName, Reader reader) { 

final TokenSstreanm result = new PorterSstemFilter (new StopFilter!t 
true, new StandardTokenizer (Version.LUCENE CURRENT, reader), 
standardAnalyzer.STOP WORDS SET)); 


TermaAttribute termaAtt = {TermAttrilbute} result 
.addAttribute{(TermaAttribute.class): 
StringBuilder buf = new StringBuilder!{():; 


CE 7 
while (result.incrementToken(}}) { 
String word = new String{(termaAtt.termBuffer()}, 0, termaAtt 
.termLength()): 
buf .append (filter.encode (word)) .append(" "); < 一 建立 发 音 词 根 


} catch (IOException e) { 
e.printstackTrace!{().,; 
} 
return new WhitespaceTokenizer (new StringReader (buf .toString{(})}))}); 


注意 DoubleMetaphone 过 滤器 只 能 应 用 于 英语 文本 。 对 于 其 他 语言 可 能 需要 寻找 其 他 的 过 站 
器 。 当 从 Twitter 下 载 推 文 时 ， 数 据 集中 也 会 包含 其 他 语言 的 推 文 。 在 这 个 例子 中 我 们 忽略 
了 其 他 语言 市 来 的 2 吉 采 损失 。 


利用 HDFS 复 制 命令 将 12.1.1 市 产生 的 SequenceFile 复 制 到 集群 上 , 一 旦 拷 上 去 之 后 ,就 可 


以 在 Twitter SequenceFile 上 运 运行 DictionaryVectorizer 命令 : 


bin/mahout sedq2sparse -ng 2 -ml 20 -s 3 -x 50 -ow \ 
-1 mia/twitter seqfiles/ -oO mia/twitter-vectors -n 2 \ 
-a mia.clustering.chl2.TwitterAnalyzZer -seq 


要 确保 运行 上 述 合 令 时 TwitterAnalyzer 类 人 处 于 Java 的 CLASSPATH 下 ， 这 一 点 很 重要 。 问 
量化 工具 会 花 一 些 时 间 对 推 文 进行 词 条 化 处 理 并 产生 完整 的 二 元 组 集合 。 问 Eo 比 原始 输 
人 所 占 的 空间 小 。 

我 们 并 不 知道 聚 类 要 产生 的 艇 的 个 数 。 由 于 这 里 产生 推 文 的 独立 用 户 不 足 100 000 个 ， 因 此 
可 以 每 100 个 用 户 创建 一 个 艇 ， 从 而 得 到 大 约 1000 个 徐 。 使 用 刚才 产生 的 向 量 运行 k-means 算法 。 
输出 结 末 中 得 到 的 一 个 刻 的 例子 如 下 所 示 : 


186 第 12 章 聚 类 的 实际 应 用 


排名 靠 前 的 词 项 : 


KMK 二 > 7.6094678401947024 
APKM => 7.95810538053512575 
TP Ep 6.77256302471434784 
KMPN EE D.792418488979339 
MRED => 4.9811420202255245 
KSTS 三 > 4.082704496383667 
NFLX => 4.005469512939453 
PTL => 3.9200561702251435 
N => 3.7717770755290987 


A -> 3.4771755397319795 
这 里 的 特征 KMK 是 DoubleMetaphone 过 滤器 对 comic 、comics 、komic 等 之 类 的 词 作用 后 的 
输 出 结果 o 为 得 到 原始 词 不 使 用 上 述 过 滤 规 处 理 或 直接 简单 地 使 用 StandardAnalyz er 来 对 加 
量 处 理 并 聚 类 即 可 。 
可 以 将 最 大 的 文档 频率 参数 设置 为 90% 和 20% 分 别 运 行 两 次 聚 类 算法 。 这 样 做 以 后 ， 有 关 主 
题 comics 的 篮 中 排名 靠 前 的 词 条 如 下 面 所 示 : 


排名 靠 前 的 词 条 ，-maxDEFPercent=50 


COmMmic 三 3 9.793121272867376 
COMICS = 6.115341078151356 
CoOn => 5.015090566692931 
了 七 七 如 = 4.613376768249454 
i => 4.255820257194115 
sdcec => 3.927590843402978 
you = 3.635386448917967 
六 七 => 3.0831371437419546 
ry => 2.9564724853544524 
webcomics = 2.916910980686997 
排名 靠 前 的 词 项 ，-maxDFPercent=20 
webcomics => 11.411304909842356 
COmiC => 10.651778670719692 
Comics => 10.252182320186071 
webcomic 三 > 7.813077817644392 
Con =% 5.867863954816546 
http => 4.937416185651506 
companymancomic => 4.899269049508231 
spudcomics => 4.543261228288923 
工 七 => 4.149479137148176 
addanaccity => 4.056342724391392 


上 述 两 个 输出 结 末 表 明了 在 像 推 文 这 样 的 市 噪音 的 数据 中 进行 特征 选择 的 重要 性 。 当 最 大 文 
档 频 率 参 数 设 置 为 文档 数 的 90% 时 ， 有 一 些 像 |、you、my、http 和 rt 的 特征 存在 。 这 些 特征 占据 了 
距离 计算 中 的 主要 地 位 , 因此 它们 在 篮 中 心里 具有 较 高 的 权重 。 降 低 上 述 国 值 会 去 掉 大 部 分 这 样 
的 词 。 但 是 像 http 和 rt 之 类 的 词 仍然 出 现在 下 面 那个 族 中 , 理想 上 它们 应 该 被 去 挥 。 但 是 如 果 设 置 
非常 低 的 国 值 可 能 会 有 风险 ,因为 此 时 可 能 会 丢失 一 些 十 分 重要 的 特征 。 一 种 更 好 的 做 法 是 手工 
建立 一 个 词汇 列表 然后 利用 Lucene StopFilter 去 挥 诸如 bit.ly、http、tinyurl.com、rt 之 类 的 单词 。 

上 上 面 只 利用 单词 来 计算 用 户 的 相似 度 , 然而 也 可 以 利用 用 户 的 交互 信息 来 推导 出 它们 之 间 的 
相似 度 。 例 如 ， 如 果 用 户 A 转 发 〈 合 转发 或 重 述 ) 了 用 户 B 的 推 文 ， 那 么 就 可 以 将 B 看 成 是 A 用 户 
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问 量 的 一 个 特征 ， 该 特征 的 权重 是 A 转发 B 推 文 的 次 数 。 对 按照 用 户 兴 趣 聚 类 来 说 ， 这 可 能 是 的 
-个 好 特征 。 

或 者 , 也 可 以 将 推 文中 用 户 之 间 互 相 提 太 的 次 数 作为 特征 的 权重 , 但 是 如 琳 这 样 做 的 话 , 该 
特征 可 能 会 对 聚 类 的 结果 产生 负面 影响 。 该 特征 可 能 对 于 将 用 户 聚 成 讨论 社区 非常 有 用 , 但 是 对 
于 聚 成 兴趣 相投 的 用 户 群 可 能 并 不 好 。 对 茶 个 问题 最 好 的 特征 并 不 一 定 适 用 于 其 他 问题 。 

通过 聚 类 ， 可 以 了 解 不 同 的 技术 博客 作者 如 何 聚 到 一 起 ， 而 不 同 的 朋友 群 又 如 何 聚 到 一 起 。 
这 个 问题 还 是 留 给 谈 者 目 己 去 探查 和 实验 吧 。 下 面 ， 我 们 会 考察 妃 一 个 有 趣 的 问题 : 为 一 个 Web 
2.0 电 台 开 发 一 个 标签 推荐 引擎 。 


12.2 为 Last.fm 上 的 艺术 家 推荐 标签 


Last.fm 是 一 个 流行 的 互联 网 音乐 电台 网 站 。Last.fm 有 很 多 功能 , 我 们 感 兴趣 的 是 用 户 能 够 用 
词 来 对 歌曲 或 艺术 家 打 标 签 。 例如 ,Green Day 乐 队 可 以 打上 punk 、rock 或 者 greenday 之 类 的 标签 。 
而 The Corrs 乐 队 可 以 使 用 violin 和 Celtic 来 作为 标签 。 

下 面 我 们 试图 通过 聚 类 来 实现 一 个 相关 标签 推 存 的 功能 。 这 可 以 辅助 用 户 来 打 祭 签 : 用 户 输 
入 一 个 标签 之 后 ， 系 统 可 以 推荐 一 些 在 某 种 意义 上 篆 帝 与 该 标签 共 现 的 其 他 标签 。 比 如 ,在 用 户 
对 歌曲 打上 标签 punk 后 ， 系 统 可 能 会 推荐 标签 rock。 接 下 来 我 们 会 探讨 两 种 实现 方法 : 第 一 种 基 
于 简单 的 共 现 信息 来 实现 ， 第 二 种 通过 某 种 形式 的 聚 类 来 实现 。 

我 们 的 输入 数据 集 记 录 了 每 个 艺术 家 采用 某 个 单词 作为 标签 的 次 数 。 该 数据 集 可 以 从 地 址 
http:/musicmachinery.com/2010/117/1Olastftim-artisttags2007/ 下 我 。 它 包含 了 Lastfim 音 乐 听 众 在 那 段 时 
间 对 20 000 个 艺术 家 进行 标注 所 使 用 的 频率 最 高 100 个 标签 的 原始 标记 次 数 。 数 据 集 的 格式 如 下 : 

artist-id<sep>artist-name<sep>tag-name<sep>count 


每 行 包 含 一 个 乞 术 家 了 D 及 其 姓名 、 一 个 标签 名 和 该 标签 标记 该 世 术 家 的 次 数 。 


12.2.1 利用 共 现 信息 进行 标签 推荐 


我 们 可 以 利用 共 现 信息 , 或 者 说 两 个 标签 同时 对 某 个 艺术 家 进行 标记 的 次 数 作为 相似 计算 的 
基础 。 在 前 面 的 第 6 章 我 们 讨论 过 共 现 信息 ， 那 里 计算 的 是 物品 的 共 现 信息 。 有 了 相似 度 计算 方 
法 之 后 ， 就 可 以 进行 聚 类 。 

对 每 个 标签 而 言 , 可 以 计算 它 和 其 他 标签 的 共 现 次 数 然后 将 共 现 次 数 最 高 的 那些 标签 作为 扒 
荐 结果 。 这 里 只 有 一 个 问题 : 一 个 频繁 出 现 的 标签 ， 如 awesome， 会 同时 和 其 他 标签 共 现 ， 因 此 
即使 它 作用 不 大 ， 它 仍然 会 作为 很 多 标签 的 推荐 标签 。 从 这 个 角度 来 看 ,我 们 必须 要 去 掉 那 些 高 
频 标签 。 

然而 , 采用 上 述 共 现 技术 来 推荐 标签 , 那么 那些 间接 关联 的 标签 永远 不 会 被 推荐 。 也 就 是 说 ， 
如 果 A 和 B 共 现 ， B 和 C 共 现 ， 当 用 户 添加 标签 A 时 ， 上 述 基 于 共 现 信息 的 方法 永远 不 会 推荐 C。 一 
个 变通 的 方案 就 是 将 间接 的 标签 也 加 入 到 推荐 标签 列表 中 并 对 它们 进行 重新 排序 。 
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但 是 对 于 解决 上 述 问题 来 说 , 聚 类 其 实 已 经 实现 了 这 个 功能 。 如 果 标 签 之 间 的 相似 度 在 阔 值 
之 内 ， 不管 它们 是 否 共 现 都 会 被 聚 成 一 类 。 

我 们 可 以 将 上 述 问 题 建 模 为 基于 艺术 家 的 聚 类 问题 , 其 中 艺术 家 是 文档 , 而 特征 是 万 术 家 收 
到 的 标签 。 另 一 种 蔡 代 方案 是 ,将 标签 看 成 文档 而 将 艺术 家 看 成 文档 中 的 词 ， 并 将 它们 共 现 的 次 
数 作为 词 频 。 这 是 分 析 同 一 问题 的 两 个 不 同 角度 ， 可 以 基于 图 12-1 中 的 二 分 图 (bipartite graph ) 
进行 建 模 。 


Country 


图 12-1 一 个 典型 的 二 分 图 〈 一 个 可 以 将 节点 分 割 成 两 部 分 的 岁 ) 。 这 里 一 类 市 点 代表 艺 
术 家 ,为 一 类 代表 标签 。 边 上 的 权重 等 于 标签 应 用 于 艺术 家 的 次 数 。 在 推荐 系统 中 ， 
节点 由 用 户 和 物品 构成 ， 边 上 的 权重 是 用 户 标 的 星 级 。 推 荐 和 凤 类 算法 之 间 的 密切 
程度 比 人 们 想象 的 局 


Last.fm 数 据 集 看 上 去 和 上 面 的 表示 类 似 , 可 以 直接 转换 成 器 量 。 我 们 建立 一 个 简单 的 癌 量 化 
工具 , 首先 生成 一 部 艺术 家 的 词典 , 然后 利用 该 词典 将 艺术 家 转换 成 MapReduce 形 式 的 整数 向 量 。 
我 们 本 可 以 使 用 字符 串 作 为 ID, 但 是 Mahout Vector 形式 只 支持 整数 维度 。 当 看 到 将 Last.fm 艺 术 
家 转换 为 标签 向 量 的 代码 时 ， 这 一 原因 便 一 日 了 7 然 。 


12.2.2 ”构建 Last.fm 艺 术 家 词典 


为 了 生成 Last.fm 数 据 集 的 特征 癌 量 , 我 们 部 署 两 个 MapReduce 作 业 。 第 一 个 作业 以 词典 的 形 
式 生 成 独立 的 万 术 家 列表 ， 第 二 个 作业 利用 生成 的 词典 来 产生 癌 量 。 词 典 生 成 的 Mapper 和 
Reducer 类 的 代码 在 下 面 的 代码 清单 12-4、 代 码 清 单 12-5 和 代码 清单 12-6 中 给 出 。 


代码 清单 12-4 从 效 据 集 输出 艺术 家 
Public class DictionaryMapper extends 
Mapper<LongWritable,Text, Text, Intwritalble> { 
private Pattern splitter:; 
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QOverride 
protected void map lLongWritable key, Text line, Context context) 
throws IOExXxCeption, 
InterruptedException { 


String[] fielgds = splitter,split({line.toSstring{()); 
if {fields.length < 4) 1{ 


context ,getCounter ("Map'", "LinesWithErrors") .increment (1); 
rot 


} 
String artist = fields[1]; 


| 从 分 央行 中 选择 艺术 家 


context .writel{new Text (artist)}, new Intwritable(0}): 


} | 将 艺术 家 作为 键 输出 


QOverride 
protected void setup (Context context}) throws IOExcCception, 


InterruptedException { 
Super.setuplcontext); 


splitter = Pattern.compile ("<sep>"),; 
} 


上 述 Mapper 接 受 一 行文 本 作为 输入 然后 将 艺术 家 作为 键 输出 ， 此 时 其 对 应 的 值 为 空 。 该 键 - 
值 对 会 传送 给 Reducer。 


代码 清单 12-5 ” 按 乞 术 家 分 组 并 输出 茶 个 乞 术 家 的 唯一 键 - 值 对 


public class DictionaryReducer extends 
Reducer<Text, InNntWritable,Text, InNntWritalble> { 
GOverride 


protected void reduce {Text artist, 
Iterable<IntWritable> values, 
Context context) throws IOException, 


InterruptedException { 
context .write({artist, new IntWritable(0)).; 


) | 只 渤 遇 
} 


Mappezr 输 出 艺术 家 ， 而 Reducer 只 输出 唯一 的 艺术 家 并 丢弃 空 的 字符 串 值 。 一 旦 建立 了 词 


典 , 就 可 以 将 其 谈 入 到 一 个 HashMap 中 ,其 中 每 个 词 郡 会 映射 为 一 个 唯一 的 索引 值 , 该 过 程 如 下 
面 的 代码 清单 所 示 ， 实 现时 是 串 行 执 行 的 。 


代码 清单 12-6 ”使 用 唯一 的 艺术 家 姓名 并 为 每 个 艺术 家 创建 一 个 唯一 的 整数 ID 


Map<String, Integer> dictionary = new HashMap<String, INntegqer>{);: 
Filesystem fs = Filesystem.get (dictionaryPath.toUuri{}, conf}).; 
Filestatus[] outputFiles = fs.globstatus ( 
new Path (dictionaryPath, "part-*")); 
Ht 二 二 03 
for (Filestatus filestatus : outputFiles)} { 
Fath path = fileSstatus.gqetPatht(). 
SequenceFile.Reader reader = new SequenceFile.Reader (fs, path 
Contft).: 
Text key = new Text()}):; 
Text Value = new Text!()}).: 


| 选择 所 有 的 词典 文件 


while (reader.next (key, value)) { 
dictionary.put (key.tosString(), | 将 唯一 的 标签 放 入 词典 中 
Integer.valueOf (i++) );} 


} 


这 个 HashMap 会 被 序列 化 并 保存 在 Hadoop 的 Configuration 对 象 中 。 然 后 就 进入 下 一 个 
Mapper， 该 Mapper 利 用 这 部 词典 将 字符 串 标 签 转 换 成 整数 维 ID。 下 面 我 们 会 看 到 这 一 点 。 


12.2.3 ”将 Last.fm 标 签 转 换 成 以 艺术 家 为 特征 的 同 量 


利用 上 一 节 生 成 的 词典 , 可 以 建立 标签 向 量 而 后 对 它们 进行 聚 类 。 向 量化 过 程 只 是 个 简单 的 
MapReduce 作 业 。Mappet 选 择 艺 术 家 的 整数 特征 ID 然后 建立 单个 特征 的 向 量 。 这 些 一 维 的 部 分 
向 量 会 传输 给 Redaucer ， 后 者 会 将 这 些 向 量 简单 地 进行 联结 , 生成 一 个 完整 的 向 量 。 上 述 过 程 如 
代码 清单 12-7 所 示 。 


代码 清单 12-7 ”利用 乙 术 家 的 整数 ID 映射 将 标签 转换 成 癌 量 


public class VectorMapper extends 
Mapper<LongWritable,Text,Text,VectorWritable> { 
private Pattern splitter; 
private VectorWritable writer:; 
private Map<String,TInteger> dictionary = new HashMap<String, Integer> (); 


dOverride 
protected void map (LongWritable key, Text value, 
Context context) throws TOException, 
InterruptedException { 
String[] fields = splitter.split(value.toString!());: 
if (fields.length < 4) { 
context .getCounter ("Map'", "LinesWithErrors") .increment (1}).; 
return; 
} 
String artist = fields[1]; 
String tag = fields[2]; 
double weight = Double.parseDouble{fields[3]):; | 创建 向 量 


| 从 分 割 文本 中 选择 字段 


NamedVector vector = new NamedVectort 
new SequentialAccessSparseVector(dictionary.size{)), tag); 


vector. set (dictionary.get (artist), weight); 将 ID 和 权重 写 入 向 量 
writer.set (vector}).: 


context .write(new Text {tag), writer); 输出 部 分 向 量 
日 
} 


dOverride 
protected void setrup 
Context context}) throws IOException, _ Mapper 之 前 的 设置 
InterruptedException ({ 
super.setuplcontext)}: 


Configuration conf = context .getConfigurationt{)}).; 
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DefauljtSstringifier<Map<String,Integer>> mapSstringifier 
= new DefaultSstringifier<Map<String,Integer>>! 
conf, GenericsUtil.getClass (dictionary)),; 


反 序 列 化 HashMap 


dictionary = mapSstringifier.fromSstring(conf .get ("dictionary")),; 
splitter = Pattern.compile('"<sep>"}),; 
writer = new VectorWritable!{().: 


) 


我 们 使 用 sedquentialAccessSsparseVector 作 为 标签 和 癌 量 的 表示 形式 。k-means 算 法 会 对 
问 量 元 素 进 行 多 次 顺序 的 通 历 ， 上 述 表 示 最 适合 于 这 种 访问 模式 。 利 用 Mapper 输 出 的 部 分 回 量 ， 
Reducezr 通 过 人 简单 的 拼接 得 到 一 个 完整 的 回 量 。 具 体 过程 如 下 所 示 。 


代码 清单 12-8 ”组 合 部 分 标签 同 量 并 累加 成 完整 癌 量 
public class VectorReducer extends 


Reducer<Text, VectorWritable,Text,VectorWritable> { 
Private VectorWritable writer = new VectorWritablet{)., 


protected void reduce {Text tag, 
Iterable<VectorWritable> values, 


Context context) throws IOException, 
InterruptedException { 
Vector vector = null: 


for (VectorWritable partialVector : values) { 


if {vector == null}) { 初始 化 空间 量 
vector = partialVector.get() .like().; 
} 
PartialVector.get() .addTo (vector), 
} 将 部 分 向 量 合 并 成 完整 向 量 
NamedVector namedVector = new NamedVector (vector, tag 
.toString(})); 


writer.set (namedVector): 


context .write (tag, writer).: 


VectorReaducer 将 部 分 回 量 合并 成 一 个 完整 回 量 。 现 在 Lastfim 的 艺术 家 回 量 已 经 就 绪 。 下 
一 步 就 是 运行 k-means 聚 类 算法 来 得 到 主题 。 


12.2.4 ”在 Last.fm 数 据 上 运行 k-means 算法 


Last.fm 数 据 集 的 回 量化 过 程 会 产生 大 概 98 999 个 不 同 的 标签 。 你 可 能 想 将 这 些 标 签 聚 成 大 概 
每 个 包含 约 30 个 标签 的 簇 。 
通过 如 下 命令 ， 我 们 尝试 利用 k-means 算法 来 建立 2000 个 标签 簇 ; 


bin/mahout kmeans -i mia/lastfm vectors/ \ 


-0 mia/lastfm topics -cc mia/lastfm centroj 


ids -k 2000 -ow \ 


-dm org.apache.mahout.common.distance.Cosi 


-Cd 0.01 -x 20 -cl 


neDistanceMeasure \ 
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在 单 台 机 硕 上 上 ， 上述 迭代 过 程 大 约 需 要 30 分 钟 。 该 过 程 属于 计算 密集 型 ,因此 在 Hadoop 集 群 


中 增加 更 多 的 工作 机 便 色 


6 减少 执行 的 时 间 。 


一 日 得 到 输出 之 后 ， 可 以 利用 clusterdump 工 具 来 查看 这 些 标签 秘 。 具 体 命令 如 下 : 


bin/mahout clusterdump -ss mia/lastfm topics/clusters-16 \ 
-dG mia/lastfm dict/part-r-00000-dict -dt segquencefile -n 10 


定 某 个 标签 下 排名 徘 前 的 艺术 家 : 
排名 靠 前 的 词 项 : 


下 面 征 


Shania Twain 
Garth Brooks 
Sara Evans 
Lonestar 
SHeDaisy 

Faith Hill 
Miranda Lambert 
Dixie Chicks 
Brad Paisley 


Lee AnNnn Womack 


排名 靠 前 的 词 项 : 


ExPplosions in the SKY 
JoOe Satriani 

APOCalyptica 
Steve Vali 
MOGgwali 
Godspeed Youl! 


YAllln 


Black Emperor 


Tiersen 

Pelican 

Do Make Say Think 

Ligquid Tension Experiment 


排名 靠 前 的 词 项 : 


类 。 下 的 例子 会 涉及 更 多 的 内 容 ， 
集 ， 该 数据 集 比 刚才 讨论 的 数据 集 要 大 很 多 。 


JuStin Timberlake 
Disturbeqd 
Timbalangd 

Nelly Furtado 
Lustans Lakejer 


Michael] Jackson 
Aaliyah 
Tirmbaland Magoo 
Jonathan Davis 
Sum 41 


1.126984126984127 
0O.746031746031746 
0.6031746031746031 


0.5238095238095238 
0.47619047619047616 


0.41269841269834127 


QQ 305079365079365Uy6 
U30007930007930006 
0.3492063492063492 
0.3492063492063492 


0 
U 
0 
U 


55.1930476193047619 


S51.19047619047619 
50.95238095238095 
43.666666666666664 


393 .57] 
32.001 


42857142857 


OOO000000101 


30.857142857142858 
20.285714285714285 
16.904761904761905 

16.61904761904762 


6.739130434782608 
0.391304347826087 
0.34782608695652173 
0.30434782608695654 
V0.2608695652173913 
0.2608695652173913 
.217391304347832608 
.21739130434782608 


.217391304347832608 
.21739130434782608 


这 些 标 签 可 以 存储 在 数据 库 中 ， 而 后 有 需要 时 通 


考虑 的 是 一 个 流 和 


过 查询 该 数据 库 可 以 为 任意 


示人 签 j 


个 SA 


进 


天 = 


本 


个 例子 展示 了 这 样 一 个 技巧 ， 即 可 以 将 数据 集 按照 茶 种 不 同 的 视角 进行 转换 以 便 进 行 聚 


行 的 问答 网 站 Stack Overflow 的 公开 数据 
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12.3 ”分析 Stack Overflow 数据 集 


Stack Overflow ( http://stackoverflow.com ) 是 一 个 在 线 的 问答 网 站 ， 该 网 站 提供 了 各 种 各 样 
的 编程 问题 和 解答 。 用 户 可 以 提出 或 解答 问题 ,也 可 以 对 问题 及 答案 进行 投票 以 文 持 或 反对 。 通 
过 与 网 站 的 交互 , 用 户 也 可 以 获得 一 些 声 望 得 分 。 比 如 , 用 户 一 旦 收 到 某 问题 的 答案 的 文 持 投票 ， 
那么 就 得 10 分 。 累 积 足 够 的 分 数 之 后 ， 用 户 可 以 获得 网 站 的 额外 特权 。 

感谢 Stack Overflow， 它 们 网 站 的 所 有 数据 都 可 以 人 免费 用 于 非 疝 业 人 研究 。 我 们 利用 Stack 
Overflow 的 数据 集 ， 和 觉得 其 中 一 些 可 以 看 成 聚 类 问题 。 比 如 ， 对 问题 进行 聚 类 以 找到 相关 问题 ， 
对 用 户 进行 聚 类 以 发 现 相 关 用 户 ， 对 相似 答案 聚 类 来 保证 答案 更 具 可 该 性 。 


12.3.1 解析 Stack Overflow 数 据 集 


stackoverflow.com 及 其 姊妹 网 站 ( superuser.com 、gserverflow.com 等 ， 这 些 网 站 统称 为 Stack 
Exchange 平 台 ) 的 全 部 数据 集 打 包 成 一 个 文件 , 可 以 从 地 址 http:/blog.stackoverflow.comycategory/ 
cc-wiki-dump 下 载 。 整 个 数据 集 的 压缩 包 大 概 有 3.5GB 左 右 。 所 有 数据 集 本 质 上 极其 类 似 ， 其 中 
Stack Overflow 是 其 中 最 大 和 最 主要 的 部 分 。 解 压 之 后 ，Stack Overflow 数 据 集 大 概 SGB 左 右 ， 这 
些 数据 被 分 割 为 多 个 XML 文 件 。 发 帖 、 评 论 、 用 户 、 投 票 和 论坛 徽章 都 有 各 上 自 独立 的 文件 。 

解析 XML 文件 可 能 需要 点 技巧 , 特别 是 在 Hadoop MapReduce 作 业 中 。Mahout 为 在 MapReduce 
作业 中 读 取 XML 提 供 了 一 个 org.apache.mahout.classifier.bayes.XMLInputFormat 类 。 
它 会 正确 检测 到 XML 中 的 每 个 重复 块 并 将 它 以 输入 记录 方式 传 给 Mapper。 我 们 可 以 进一步 通过 
任意 XML 解析 库 ， 以 XML 的 方式 解析 该 字符 串 。 

XMLInputEormat 类 需要 XML 块 的 开始 和 结束 标记 。 这 可 以 通过 在 Hadoop 的 Configuration 
对 象 中 设置 如 下 键 来 实现 : 


conf .set ("xmlinput.start", "<row Id="}); 
Conf,setr "xmlinput.end' , />") ， 


CoOnT .setIinputrFormat (Xml InputrFormat .class}); 


在 Mapper 中 ,将 键 设置 为 Longwritable 类 型 将 值 设 置 为 Text 类 型 ， 然 后 将 整个 XML 块 作 
为 Text 谈 入 到 值 中 ， 其 中 包括 开始 和 结束 符 。 


12.3.2 ”在 Stack Overflow 中 发 现 聚 类 问题 


Stack Overflow 数 据 集 包 含 一 张 用 户 表 、 一 张 问题 表 和 一 张 答案 表 。 它 们 之 间 存 在 关联 ， 基 
于 用 户 ID 问题 ID 和 答案 ID 将 有 助 于 将 数据 转换 成 你 所 要 的 形式 。 对 于 该 数据 集 有 如 下 一 些 有 趣 
的 聚 类 问题 : 

1. 对 发 帖 进行 聚 类 以 发 现 相 天 问题 

识别 与 某 个 主题 相关 的 问题 十 分 有 用 。 用 户 在 浏览 一 个 没有 很 好 地 解决 其 问题 的 帖子 时 , 也 


194 第 12 齐 聚 类 的 实际 应 用 


许可 以 在 一 些 相关 问题 中 找到 更 好 的 答案 。 这 种 寻找 相似 问题 的 过 程 就 像 前 面 提 到 的 在 路 透 社 数 
据 集 上 寻找 相似 文章 。 但 这 里 的 帖子 比 路 透 社 新 闻 要 短 而 比 Twitter 上 的 推 文 要 长 ， 因 此 TF-IDF 
权重 计算 方法 应 该 可 以 得 到 较 好 的 特征 。 我 们 最 好 也 去 除数 据 集 中 的 高 频 词 , 因此 这 里 将 最 大 的 
文档 频率 国 值 设 为 709% 或 更 低 。 

在 对 上 述 数 据 进 行 癌 量化 时 面临 的 一 个 巨大 挑战 是 缺乏 一 个 Stack Overflow 问 题 的 好 的 词 条 
化 工具 。 很 多 问 题 和 答案 都 包含 来 日 不 同 编程 语言 的 代码 片段 , 而 默认 的 standardAna lyzer 
并 未 被 设计 成 可 以 处 理 这 类 数据 ,因此 需要 编写 解析 各 来 处 理 代码 中 的 括号 和 数组 以 及 不 同 编程 
语言 的 奇怪 格式 。 

除了 只 使 用 问题 之 外 , 还 可 以 将 问题 和 它们 的 答案 及 评论 打包 在 一 起 产生 更 大 的 文档 来 得 到 
更 多 的 问题 聚 类 特征 。 与 Twitter 不 同 , 由 于 内 容 较 大 ， 因 此 这 里 的 拼写 错误 不 会 对 聚 类 的 质量 造 
成 太 大 的 影响 。 但 是 增加 一 个 DoupleMetaPhone 过 滤 需 还 是 可 以 稍微 提高 一 点 聚 类 质量 的 。 由 
于 数据 很 多 ， 因 此 k-means 和 模糊 k-means 都 会 产生 类 似 的 结果 。 只 有 使 用 LDA 主 题 作 为 特征 才 可 
以 得 到 更 高 质量 的 结果 ,但 是 在 该 数据 集 上 运行 LDA 时 的 CPU 消 耗 可 能 会 局 的 离谱 。 

2. 对 用 户 数 据 进 行 聚 类 以 发 现 相似 用 户 

假设 你 是 一 个 长 期 使 用 JMS ( Java Messaging Service ，Java 消 息 服 务 ) API 的 开发 人 员 ， 和 那么 
对 你 而 言 找 到 那些 也 使 用 JMS 的 用 户 十 分 有 用 。 帮 助 用 户 形成 这 样 的 社区 不 仅 可 以 提高 网 站 的 用 
户 体验 ， 还 可 以 激发 用 户 的 参与 度 。 与 前 面 一 样 ， 这 里 可 以 通过 聚 类 来 计算 出 这 种 可 能 的 社区 。 

对 用 户 聚 类 需要 用 户 的 特征 向 量 。 这 些 特征 可 以 是 用 户 发 的 帖子 或 解答 的 内 容 , 或 者 是 用 户 
和 其 他 用 户 的 交互 信息 。 下 面 给 出 了 回 量 的 一 些 特 征 : 

口 用 户 创 建 的 问题 或 解答 的 内 容 ， 包 括 来 自 文 本 和 代码 片段 的 n 元 组 (n-gram ); 

口 对 当前 用 户 发 的 帖子 进行 回复 或 评论 的 其 他 用 户 。 

可 以 只 利用 发 帖 的 内 容 对 用 户 聚 类 , 也 可 以 只 利用 共同 的 交互 数目 对 用 户 聚 类 ,或 者 两 者 同 
时 使 用 。 前 面 在 对 推 文 进行 聚 类 时 ， 只 用 到 了 内 容 信息 。 而 利用 交互 特征 来 对 用 户 聚 类 会 是 一 个 
很 好 的 实践 体验 。 

在 该 模型 中 ,用户 是 文档 ,其 特征 是 其 他 与 之 有 过 交互 的 用 户 的 ID, 每 个 特征 值 反 映 的 是 用 
户 之 间 的 交互 程度 。 该 交互 程度 可 以 通过 权重 来 计算 。 例如， 如 有 果 用 户 2 对 用 户 1 的 发 帖 进 行 了 评 
论 ， 那 么 可 以 映射 为 权重 10。 但 是 如 果 用 户 2 对 用 户 1 的 发 帖 进行 了 投票 ， 那 么 只 会 赋予 权重 2。 
如 有 果 是 投 反 对 票 的 话 ， 那 么 可 能 会 得 到 一 个 -10 的 权重 ， 表 示 这 两 个 用 户 交 互 的 概率 很 低 。 考 虑 
所 有 可 能 的 交互 行为 并 赋予 相应 权重 。 在 用 户 1 特 征 回 量 中 的 用 户 2 特 征 的 权重 为 它们 之 间 所 有 交 
互 权重 的 累加 值 。 利 用 这 些 癌 量 及 特征 , 就 可 以 尝试 基于 用 户 的 交互 模式 对 用 户 进 行 聚 类 并 看 看 
结 采 怎样 。 


12.4 ”小 结 


本 章 中 ， 我 们 通过 分 析 3 个 数据 集 Twitter 、Lastftmn 和 Stack Overflow 考 察 了 实际 中 的 聚 类 
应 用 。 
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一 开始 我 们 分 析 推 文 并 试图 找到 推 文 类似 的 用 户 ,我 们 对 数据 进行 预 处 理 , 然后 转换 成 回 量 ， 
最 后 利用 这 些 癌 量 按照 用 户 的 推 文 相似 度 成 功 地 对 用 户 进行 了 聚 类 。 由 于 采用 了 基于 MapReduce 
的 实现 ，Mahout 很 容易 就 能 扩展 并 能 处 理 一 千 万 条 推 文 构成 的 数据 集 。 

我 们 利用 了 Last.fm 标 签 数 据 集 的 一 个 小 规模 子 集 来 对 网 站 做 标签 推荐 ,我 们 将 该 问题 建 模 成 
一 个 二 分 图 网 络 , 其 中 一 类 节点 是 音乐 家 另 一 类 节点 是 用 户 产生 的 标签 , 边 上 的 权重 是 它们 共 现 
的 次 数 。 我 们 基于 标签 进行 了 聚 类 。 利 用 聚 类 的 结果 ， 很 容易 就 能 为 网 站 提供 标签 推荐 功能 。 

最 后 ， 我 们 考察 了 来 和 目 Stack Overflow 网 站 的 数据 。 我 们 讨论 了 几 个 这 种 论坛 上 实际 面 对 的 
问题 ， 这 些 问 题 只 利用 聚 类 算法 就 可 以 得 到 解决 。 

到 这 里 为 止 , 我 们 结束 了 Mahout 中 的 聚 类 算法 的 介绍 。 我 们 循序 渐进 的 介绍 了 机 融 学 习 的 一 
个 方面 ， 一 开始 介绍 基本 的 结构 和 数学 知识 ， 然 后 逐渐 过 渡 到 Hadoop 集 群 上 的 大 规模 问题 解决 
方案 。 

接 下 来 我 们 将 转 加 介 绍 Mahout 中 的 分 类 , 这 需要 更 复杂 的 有 关机 需 学 习 的 理论 和 一 些 坚实 的 
分 布 式 和 非 分 布 式 优化 技术 ， 这 样 才能 完美 的 实现 精确 高 效 的 分 类 。 


分 类 


第 三 部 分 也 是 本 书 最 后 一 部 分 ， 由 第 13 章 到 第 17 章 组 成 ， 主 要 介绍 如 何 利 用 Mahout 进 行 
分 类 。 利 用 这 一 部 分 介绍 的 技术 ， 你 能 够 构建 问题 ， 并 选择 和 准备 合适 的 数据 ， 以 利用 计算 
机 自动 将 数据 分 到 预定 的 类 别 中 。 分 类 是 一 种 简单 的 决策 形式 ， 对 单个 问题 提供 一 个 离散 的 
答案 。 基 于 机 器 的 分 类 是 上 述 决 策 的 自动 化 过 程 ， 它 从 正确 决策 样本 中 进行 学 习 并 自动 对 决 
策 进 行 仿真 ， 这 也 是 预测 分 析 中 的 核心 概念 。 分 类 依赖 于 有 指导 的 学 习 ， 并 且 集 中 关注 一 次 
回答 一 个 问题 ， 这 些 特 点 使 它 有 别 于 前 面 两 部 分 分 别 介绍 的 聚 类 和 推荐 。 与 分 类 相 比 ， 聚 类 
依赖 于 机 器 自身 进行 的 决策 ， 而 推荐 对 多 个 可 能 的 好 答案 进行 选择 和 排序 。 

这 一 部 分 将 介绍 分 类 的 3 个 阶段 。 第 13 章 和 第 14 章 介绍 分 类 的 基本 知识 ， 并 展示 如 何 构建 
和 训练 Mahout 分 类 模型 。 第 15 章 介绍 如 何在 整个 过 程 中 使 用 评估 技术 ， 来 识别 最 好 的 模型 版 
本 和 对 性 能 进行 调 优 。 第 16 章 和 第 17 章 介绍 的 是 如 何在 真实 场景 下 部 署 分 类 系统 。 这 一 部 分 
介绍 了 如 何 正确 识别 和 提取 有 用 的 数据 ， 并 详细 探讨 如 何 优化 特征 向 量 以 便 为 多 个 Mahout 分 
类 算法 所 用 。 另 外 ， 这 里 还 给 出 了 一 些 避 免 诸 如 目标 泄漏 问题 的 提示 。 一 步 一 步 分 析 的 示例 
可 以 让 读者 经 历 每 一 步 过 程 ， 从 而 帮助 其 构建 分 类 器 和 对 性 能 进行 调 优 。 

除了 详细 解释 如 何 为 速度 和 规模 需求 很 高 的 系统 构建 和 部 署 高 效 、 可 靠 的 分 类 器 ， 第 17 
章 还 给 出 了 一 个 实际 的 案例 ， 在 该 案例 中 一 个 在 线 营销 公司 使 用 Mahout 来 完成 需求 。 通 过 这 
个 最 后 的 案例 ， 我 们 能 够 明白 如 何 真 正 应 用 各 章 介 绍 的 分 类 知识 。 


由 
并 


本 章 内 容 

口 为 什么 说 Mahout 具 有 强大 的 分 类 功能 
口 分 类 的 主要 概念 和 术语 

口 典型 分 类 项 目的 工作 流程 

口 一 个 详尽 的 分 类 示例 


生活 弟弟 给 我 们 提出 一 些 非 开 放 式 的 问题 , 要 求 我 们 在 特定 选项 中 做 出 抉择 。 这 种 相对 朴 系 
的 思想 是 人 类 和 机 带 进 行 分 类 的 基础 。 分 类 依赖 于 海 在 答案 的 类 别 ,， 基于 机 奋 的 分 类 则 是 这 种 简 
持 抉 择 的 日 动 化 形式 。 

本 章 介绍 适合 用 Mahout 做 分 类 的 情况 ， 并 解释 Mahout 相 比 于 其 他 方法 的 优势 。 作 为 对 分 类 的 
介绍 ,本 章 还 解释 了 什么 是 分 类 ,以 及 其 中 一 些 基本 的 术 志 和 概念 。 此 外 , 我 们 用 一 个 实例 来 描述 
如 何 进行 分 类 , 介绍 典型 分 类 项 目 工 作 流程 的 三 个 阶段 一 一 训练 、 评 估 和 调 优 模型 一 一 以 及 如 何 实 
地 使 用 模型 。 然 后 ， 我 们 演示 了 一 个 简单 的 分 类 项 目 ， 并 逐步 展示 如 何 把 这 些 基 本 想法 付 诸 实践 。 


13.1 为 什么 用 Mahout 做 分 类 


Mahout 广 泛 用 于 分 类 项 目 ， 但 仅 当 训练 样本 个 数 非常 大 时 ，Mahout 的 优势 才 会 体现 出 来 。 
这 里 “大 ”的 含义 千差万别 。 对 于 100 000 左 右 的 样本 ， 其 他 分 类 系统 也 能 做 到 高 效 、 准 确 。 但 
是 ， 当 输入 规模 达到 100 万 甚至 1 千 万 时 ， 就 需要 像 Mahout 这 种 具有 可 扩展 性 的 工具 了 。 表 13-1 
列 出 了 一 些 最 适合 使 用 Mahout 的 场合 。 


表 13-1 Mahout 的 最 大 价值 在 于 可 以 处 理 其 他 方法 无 法 处 理 的 超大 规模 或 增长 迅速 的 效 据 集 
系统 中 的 样本 规模 分 类 方法 的 选择 
<100 000 传统 的 、 非 Mahout 方 法 可 以 做 得 很 好 。Mahout 训 练 速度 可 能 更 慢 
100 000~1 000 000 可 以 考虑 使 用 Mahout。 灵活 的 API 使 Mahout 成 为 一 个 理想 的 选择 , 尽管 没有 多 少 性 能 上 的 优势 
1 000 000~10 000 000 “在 这 个 范围 内 ，Mahout 是 一 个 极 佳 的 选择 
>10 000 000 其 他 方法 完 败 于 Mahout 
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Mahout 在 较 大 数据 集 上 具有 优势 的 原因 在 于 , 随 春 输 入 数据 的 增加 , 非 可 扩展 系统 用 于 训练 
的 时 间或 内 存 需 求 并 不 是 线性 增长 的 。 数 据 量 达到 两 倍 时 ， 系 统 训练 时 间 翻 倍 是 可 以 接受 的 , 但 
当 5 们 的 输入 数据 导致 100 倍 的 训练 时 间 时 , 丈 需 要 如 求 其 他 的 解决 方案 了 。 这 种 场合 下 ,Mahout 
恰 可 以 大 显 号 于 了 。 

一 般 傅 况 下 ,Mahout 的 分 类 算法 所 需 计 算 资 源 的 增长 速度 不 会 超过 训练 或 测试 样本 数 。 而 且 ， 
大 多 数 情 况 下 所 需 的 计算 资源 可 以 并 行 化 。 这 样 一 来 ,你 就 可 以 在 机 带 数 量 和 运行 时 间 之 间 找 到 
平衡 。 

图 13-1 展 示 了 像 Mahout 所 提供 的 这 类 可 扩展 算法 在 大 中 型 分 类 项 目 中 的 优势 。 当 训练 样本 效 
很 小 时 ， 传 统 的 数据 控 据 方法 可 以 做 得 很 好 ， 甚 至 好 过 Mahout。 但 随 春 样本 数 的 增加 ，Mahout 
可 扩展 与 并 行 的 算法 会 获得 更 好 的 时 间 效 座 。 非 可 扩展 算法 所 需 的 时 间 增 长 , 通常 是 由 于 它们 所 
需 的 内 存 会 随 春 训 练 样本 数 无 限制 增长 。 目 前 , 海量 数据 集 变 得 越 来 越 普 遍 。 随 看 数据 数字 化 存 
储 技 术 的 不 断 进 步 ,数据 采集 的 代价 将 大 大 减少 ,使 用 大 量 数据 进行 训练 是 件 好 事 ， 因 为 通常 可 
以 提高 准 硝 度 。 绪 有 末 ,， 越 来 越 多 的 大 数据 集 需要 采用 可 扩展 的 学 习 算 法 ,而 Mahout 可 扩展 的 分 类 
条 也 正和 被 越 来 越 广泛 的 应 用 。 


可 扩展 算法 
(Mahout 获 胜 ! ) 


非 可 扩展 算法 


训练 样本 数目 


传统 数据 ES 
0 可 扩展 算法 需要 的 区 间 
有 效 工 作 
的 区 间 
图 13-1 在 中 大 型 分 类 系统 中 使 用 Mahout 的 优势 。 锯 此 状 曲线 展示 了 增加 机 需 融 来 的 
性 能 提升 。 每 增加 一 合 机 融 ， 都 能 减少 训练 时 间 


13.2 分 类 系统 基础 


在 了 解 基于 Mahout 的 分 类 方法 之 前 , 让 我 们 更 深入 地 了 人 解 一 下 分 类 的 基本 知识 , 以 及 它 与 推 
在 和 聚 类 的 区 别 。 
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站 完 ， 以 我 们 熟悉 的 基于 人 工 的 分 类 为 例 。 填写 病 历 ， 完 成 一 个 企业 服务 质量 的 调查 ,或 核 
对 你 在 纳税 申报 表 中 是 否 勾 选 了 正确 的 复 选 框 ， 这 都 需要 你 从 一 组 预 完 给 定 的 管 案 中 做 出 选择 。 
有 时 可 供 选 择 的 类 别 很 少 ， 甚 至 茶 些 情况 下 仅仅 需要 回答 “是 ”或 “ 否 "。 在 这 种 情况 下 ， 分 类 
过 程 减少 了 游 在 的 庞大 而 复杂 的 可 能 性 ， 以 适应 少量 选项 。 


定义 分 类 是 使 用 特定 的 信息 (输入 ) 从 一 个 预定 义 的 潜在 回应 列表 中 做 出 单一 选择 ( 输出) 
的 过 程 。 


比较 一 个 品 酒会 上 的 人 和 一 个 去 商店 为 晚餐 买 酒 的 人 。 在 品 酒会 上 ， 人 们 可 能 会 问 :“ 你 党 
得 那个 酒 怎么 样 ? ”回答 很 可 能 多 种 多 样 :“ 泣 辣 ”“ 水 末 味 ”“ 酿 得 不 错 ”“ 刺 激 ”“ 我 姑姑 沙发 
的 颜色 ”或 “品牌 不 错 ” 。 这 个 问题 不 具有 特异 性 ， 而 答案 〈 输 出 ) 也 不 是 从 一 个 预先 定义 的 
列表 中 做 出 单一 选择 。 这 种 情况 就 不 是 分 类 了 ， 尽 管 它 可 能 跟 分 类 具有 某 些 相似 性 。 

现在 考虑 在 杂货 店 买 酒 的 顾客 。 在 品 酒会 中 探讨 的 一 些 酒 的 特性 〈 口 味 、 颜 色 等 ) 可 能 对 顾 
客 也 有 意义 , 但 为 了 高 效 地 做 出 决定 ( 买 或 者 不 买 ) 然后 回去 就 餐 ， 顾 客 很 可 能 参照 心中 一 个 简 
单 的 特性 清单 〈 红 色 、10 美 元 、 适 合 搭配 比 隘 、 一 个 束 悉 的 品牌 等 )， 然 后 对 每 一 瓶 酒 做 出 决定 
( 买 或 者 不 飞 )。 他 们 可 能 会 忽略 一 些 细 世 和 细微 差别 , 但 对 于 可 选 答案 极 少 的 情况 ( 买 或 不 买 )， 
对 问题 进行 简化 是 一 个 切实 可 行 的 办 法 。 在 这 种 情况 下 ， 磊 客 可 以 及 时 离开 商店 回 家 吃饭 。 这 怠 
是 一 种 分 类 。 

机 融 不 能 完成 人 类 所 有 的 思维 和 决策。 但 是 ,在 特定 条 件 下 ， 机 需 可 以 模仿 人 的 决策 ， 高 效 
地 进行 分 类 。 当 需要 在 有 限 范 围 内 做 出 单一 选择 时 ,这 种 基于 机 硕 的 方法 是 可 行 的 。 输 入 可 以 看 
做 是 一 组 特定 的 特性 ， 输 出 则 是 明确 的 ， 是 简短 列表 中 的 单一 选择 。 

分 类 算法 是 预测 分 析 (predictive analytic ) 的 核心 。 预 测 分 析 的 目标 就 是 建立 一 个 目 动 化 系 
统 ， 以 取代 人 类 做 出 决策 的 功能 。 分 类 算法 是 实现 这 一 目标 的 一 个 基本 工具 。 

垃圾 邮件 检测 就 是 预测 分 析 的 一 个 例子 。 计算机 使 用 用 户 历史 细节 和 电子 邮件 内 容 特征 来 做 
判断 : 一 封 新 电子 邮件 是 垃圾 邮件 ， 还 是 比较 受 欢 迎 的 邮件 ? 另 一 个 例子 是 信用 卡其 诈 检 测 。 计 
算 机 用 账户 最 近 的 历史 和 当前 交易 细 市 来 确定 是 否 是 欺诈 性 交易 。 

目 动 化 系统 如 何 做 到 这 点 ”我 们 希望 它们 神奇 地 做 到 这 一 点 ,但 实际 上 依赖 于 让 它们 从 样本 
中 学 习 。 


定义 计算 机 分 类 系统 是 一 种 机 器 学 习 的 形式 ， 它 通过 学 习 算 法 使 计算 机 基于 经 验 做 出 决策 ， 
这 一 过 程 模仿 了 人 的 决策 。 


分 类 算法 基于 样 例 学 习 , 但 它们 并 不 能 取代 人 的 判断 ,这 在 很 大 程度 上 是 因为 它们 需要 精心 
准备 一 批 正确 决策 的 样本 ， 并 从 中 学 习 。 而 且 , 它们 也 和 需要 精心 准备 用 于 判断 的 输入 。 与 Mahout 
的 其 他 用 途 不 同 ， 基 于 机 带 的 分 类 是 一 种 有 监督 的 学 习 形 式 。 


13.2.1 分类、 推荐 和 聚 类 的 区 别 


分 类 与 前 面 各 草 中 提 到 的 聚 类 是 对 立 的 , 因为 聚 类 算法 目 己 能 决定 哪些 区 别 是 重要 的 《在 机 
人 船 尝 习 的 犯 畴 中 ， 它 们 是 无 监督 学 习 算 法 )， 而 分 类 算法 则 需要 模仿 做 出 正确 决 宁 的 样本 来 学 习 
(它们 是 有 监督 算法 的 )。 分 类 算法 与 推 存 算法 也 是 有 区 别 的 ,分 类 算法 试图 从 很 有 限 的 输出 集合 
中 做 出 单一 决策 ， 而 推荐 算法 会 选择 许多 可 能 的 答案 ， 并 对 其 进行 排序 。 


] 性 


告 理解 分 类 概念 的 一 种 方式 是 提醒 自己 分 类 不 是 什么 : 如 果 你 的 系统 是 无 监督 的 ， 那 么 它 
就 不 是 分 类 ; 如 果 问 题 是 开放 式 的 ， 或 者 答案 没有 类 别 ， 那 么 你 的 系统 也 不 是 分 类 。 


有 点 奇怪 的 是 , 分 类 可 以 作为 一 种 创造 性 的 、 有 效 的 工具 用 于 推荐 过 程 。 通 常情 况 下 ， 建 立 
一 个 基于 分 类 的 推荐 系统 并 不 如 真正 的 推荐 系统 效率 高 , 但 用 作 推 荐 程序 的 分 类 天 可 以 使 用 笛 规 
推荐 系统 很 难 使 用 的 某 些 信息 。 推 荐 系统 通 第 使 用 用 户 行为 历史 ， 而 无 视 用 户 和 物品 的 特点 ， 而 
后 者 对 于 分 关系 统 却 是 很 有 用 的 。 第 17 章 中 的 案例 研究 摘 述 了 一 个 分 类 带 如 何 有 效 地 用 作 推 荐 
程序 。 

我 们 已 经 回答 了 “什么 是 分 类 ”这 个 问题 。 接 下 来 ， 我 们 了 解 分 类 用 来 干什么 。 


13.2.2 分 类 的 应 用 


预 完 和 定义 一 个 小 的 类 别 集合 , 分 类 系统 的 输出 就 是 将 其 输入 数据 对 应 到 此 集合 中 的 一 个 类 别 
上 。 分 类 的 效用 通常 由 预定 义 类 别 的 意义 来 衡量 。 建立 了 数据 与 类 别 的 对 应 关系 之 后 ,计算 机 或 
用 户 可 以 在 此 输出 的 基础 上 做 进一步 的 处 理 。 

分 类 通常 用 于 预测 或 检测 。 以 信用 卡 诈骗 为 例 , 分 类 带 能 基于 已 知 的 购买 行为 或 其 他 信用 卡 
交易 样本 ， 有 效 地 预测 交易 是 否 属于 欺诈 。 特 定 交 易 是 否 属于 欺诈 行为 ， 可 以 表示 为 两 个 类 别 : 
是 ， 欺 诈 ; 否 ， 没有 欺诈 。 

在 茶 些 行业 中 ,如 保险 或 电信 ， 分 类 对 于 预测 公司 的 客户 流失 很 有 用。 我 们 可 以 通过 前 几 年 
的 客户 历史 数据 为 这 类 应 用 训练 分 类 系统 ， 其 中 客户 的 “流失 ”/“ 保 持 ” 对 应 于 目标 类 别 集合 。 
训练 数据 集中 ， 能 够 准确 预测 用 户 是 否 会 继续 使 用 服务 的 客 尸 特性 被 选 作 特 征 。 一 旦 训练 完成 ， 
分 类 系统 可 基于 特定 的 已 知 特性 ， 包 括 当前 行为 ， 对 其 他 用 户 未 来 的 行为 进行 预测 。 


注意 前 面 我 们 用 预测 这 个 词 来 描述 分 类 器 的 行为 。 它 除了 指 代 预见 未 来 事件 的 能 力 ， 也 可 以 
指 对 一 个 可 能 存在 ， 但 在 分 类 时 并 不 容 匈 获得 的 值 的 估计 。 


我 们 可 以 将 预测 看 做 这 样 一 个 任务 ， 它 基于 现 有 数据 来 为 一 个 特性 赋值 (分配 一 个 类 别 )， 
而 不 是 耻 接 测定 该 特性 的 值 。 通常 卫 接 对 该 特性 本 里 进 行 判别 的 代价 很 蜗 , 这 也 是 用 分 类 做 预测 
的 原因 。 这 里 ， 蜗 代价 指 金 钱 或 时 间 成 本 太 高 ， 或 非常 危险 。 
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例如 ,对 于 糖尿 病 等 会 逐渐 恶化 的 疾病 , 你 可 能 不 希望 花 一 年 或 更 长 时 间 去 观察 其 亚 化 的 过 
程 。 相 反 ， 你 可 以 建立 一 个 分 类 系统 ,尽早 评 佑 将 来 可 能 出 现 的 风险 ， 而 不 必 等 到 疾病 恶化 到 不 
可 挽回 的 地 步 。 知道 病人 是 糖尿 病 早 期 或 可 能 发 展 为 糖尿 炳 ,医生 就 可 以 采取 预防 措施 或 为 病人 
进行 早期 的 治疗 。 


提示 分 类 通常 是 一 种 通过 分 析 低 代价 变量 组 合 米 确定 高 代价 交 量 值 的 方法 。 


在 某 些 场合 , 分 类 系统 能 够 降低 对 人 里 的 伤害 。 例 如 ， 通 过 认 知 测试 或 PET 扫 描 这 类 无 创 手 
段 诊 断 老 年 痴 采 症 ， 显 然 要 比 直 接 解 训 大 脑 的 手段 更 可 取 ， 尤 其 是 在 病人 还 活着 的 时 候 。 
因此 ， 分 类 是 很 有 用 的 。 但 是 ， 为 什么 要 用 Mahout 来 做 分 类 ， 而 不 用 其 他 软件 呢 ? 


13.3 分 类 的 工作 原理 


构建 分 类 系统 主要 有 两 个 阶段 : 通过 学 习 算法 建立 一 个 模型 , 然后 使 用 该 模型 对 新 数据 进行 
分 类 。 如 何 选择 训练 数据 、 输 出 类 别 〈 目标 )、 系 统 使 用 的 学 习 算 法 以 及 用 作 输 入 的 变量 ， 是 构 
建 分 类 系统 第 一 阶段 的 关键 。 

构建 分 类 系统 的 基本 步 又 如 图 13-2 所 示 。 该 图 展示 了 分 类 过 程 的 两 个 阶段 : 上 面 表示 训练 分 类 
模型 的 过 程 ; 下 面 的 过 程 为 该 模型 提供 新 的 输入 样本 , 然后 通过 为 样本 分 配 类 别 〈 目标 变量 ) 来 模 
仿 决 策 。 训 练 算 法 的 输入 由 样本 数据 和 标注 的 已 知 目标 变量 组 成 。 当 然 , 在 生产 环境 中 新 样本 的 目 
标 变 量 是 未 知 的 。 在 对 算法 进行 评 佑 时， 这 些 目标 变量 的 值 是 已 知 的 ， 但 对 分 类 模型 不 可 见 。 


2 分 类 系统 
带 标注 信息 ， aa 
的 训练 样本 。 | 预测 变量 和 |， 

此 复制 / oe 

, p |. 
新 样本 ee. 模型 ”上 上 一 决策 结果 
Ee 模型 |: 训 计 疝 痢 关 和 
、  ， 标 变量 


图 13-2 分 类 系统 的 运转 过 程 示意 图 。 虚 线 框 内 的 部 分 是 分 类 系统 的 核心 一 一 训练 算法 
训练 一 个 模型 以 模仿 人 类 的 决 琐 。 该 模型 的 一 个 副本 将 被 用 于 评估 或 生产 环境 
下 ， 对 于 新 的 输入 样本 ， 它 能 对 目标 变量 进行 估计 


测试 时 提交 给 模型 的 新 样本 不 能 包含 在 训练 数据 中 ， 这 一 点 没有 显 式 地 在 图 13-2 中 表示 出 
来 。 通过 比较 模型 选择 的 结果 与 已 知 的 目标 变量 值 ,就 可 以 评估 模型 的 性 能 ,这 一 过 程 会 在 第 15 


一 ^ 


草 进 行 深 入 探讨 。 
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不 同人 描述 分 类 的 术语 大 不 相同 。 为 保持 一 致 性 , 我 们 限定 了 本 书 中 用 于 表述 关键 概念 的 术 
语 ， 其 中 大 部 分 术语 神 列 于 表 13-2 中 。 特 别 需要 注意 记录 和 字段 的 关系 : 记录 存储 的 是 与 训练 样 
本 或 生产 样本 有 关 的 所 有 值 , 字段 则 存储 每 个 样本 的 菏 个 特征 值 。 我 们 将 在 接 下 来 的 几 记 中 对 表 
13-2 中 列 出 的 要 点 进行 探讨 。 


表 13-2 分 类 中 的 关键 概念 术语 
关键 概念 描 述 
模型 一 个 做 决策 的 计算 机 程序 ; 在 分 类 中 ,训练 算法 的 输出 就 是 一 个 模型 
训练 数据 训练 样本 的 一 个 子 集 ， 带 有 目标 变量 值 的 标注 ， 用 作 学 习 算 法 的 输入 以 生成 模型 
测试 数据 留存 的 部 分 训练 样本 ,隐藏 其 目标 变量 值 ， 以 便 用 于 评估 模型 


训练 使 用 训练 数据 生成 模型 的 学 习 过 程 。 随 后 该 模型 可 将 预测 变量 作为 输入 来 估计 目标 变量 的 值 

训练 样本 具有 特征 的 实体 ， 将 被 用 作 学 习 算 法 的 输入 

特征 训练 样本 或 新 样本 的 一 个 已 知 特 性 。 一 个 特征 与 一 个 特性 是 等 同 的 

变量 在 这 个 上 下 文中 , 指 一 个 特征 的 值 或 一 个 关于 多 个 特征 的 函数 。 这 一 用 法 不 同 于 计算 机 编程 中 的 交 量 

记录 存储 一 个 样本 的 容 般 。 这 样 一 个 容 骨 由 多 个 字段 组 成 

字段 记录 的 一 部 分 ， 包含 一 个 特征 的 值 ( 变量 ) 

预测 变量 选 做 分 类 模型 输入 的 一 个 特征 。 不 是 所 有 的 特征 都 会 被 用 到 。 茶 些 特征 可 能 是 其 他 特征 按 某 种 规则 进 
行 组 合 的 结果 

目标 变量 分 类 模型 试图 去 预测 的 一 个 特征 : 目标 变量 是 可 分 类 的 ， 决 定 其 类 别 就 是 分 类 系统 的 目标 


在 接 下 来 的 儿 节 中 , 我 们 更 密切 地 关注 模型 是 什么 ,以 及 它 是 如 何 训练 、 测 试 并 用 于 生产 环 
境 的 。 你 将 学 会 区 分 预测 变量 和 目标 变量 ,理解 如 何 正确 地 使 用 记录 、 字 段 和 值 , 并 了 解 变量 可 
取 值 的 4 种 形式 。 另 外 ， 你 会 发 现 Mahout 分 类 恰 是 监督 学 习 的 一 个 示例 。 


13.3.1 模型 


分 类 算法 从 样本 中 进行 学 习 的 过 程 就 是 训练 。 这 一 训练 过 程 的 输出 称 为 模型 。 模型 是 一 个 孙 
数 ， 随 后 可 作用 于 新 样本 以 生成 输出 , 模仿 原始 样本 上 的 决策 。 这些 模仿 的 决策 束 是 分 类 系统 的 
最 终 产 出 。 


注意 训练 算法 生成 的 模型 本 身 就 是 一 个 有 效 的 计算 机 程序 。 


图 13-2 已 经 展示 了 如 何 将 训练 样本 和 标注 的 输出 值 传递 给 分 类 系统 的 学 习 部 分 以 生成 模型 。 
这 个 模型 本 刁 就 可 以 看 做 是 做 决 琳 的 计算 机 程序 ， 它 会 被 复制 并 接受 新 样本 ( 作为 输入 )。 我 们 
的 目的 是 让 模型 模仿 训练 样本 作为 输入 的 例子 对 新 样本 进行 分 类 。 


13.3.2 训练、 测试 与 生产 
实际 上 ,训练 样本 通常 分 为 两 部 分 .其 中 一 部 分 用 作 训练 数据 ,大 概 占 可 用 数据 的 80% ~ 90%。 
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训练 数据 用 于 训练 以 产生 模型 。 为 一 部 分 称 为 测试 数据 ， 随 后 会 被 提交 给 棕 型 , 但 不 告诉 模型 真 
实 的 答案 一 一 人 尽管 它们 是 已 知 的 。 这 人 么 做 是 为 了 比较 模型 的 输出 和 期 望 的 输出 。 

一 旦 模型 的 性 能 满足 需求 ， 它 就 会 被 投入 到 生产 中 ,对 其 他 样本 进行 分 类 ， 而 这 些 样 本 的 正 
确 决 岳 值 是 未 知 的 。 生 产 环 境 中 的 结 末 通 第 不 会 100% 准 确 ， 但 输出 的 质量 应 该 与 测试 阶段 的 结 
末 保 持 一 致 ， 除 非 输入 数据 的 质量 或 其 他 外 部 条 件 发 生 了 改变 。 

一 个 凋 用 的 做 法 是 随 春 时 间 的 推移 , 将 采样 生产 环境 中 的 样本 并 将 其 加 入 到 训练 数据 中 , 这 
样 可 以 生成 不 断 更 新 的 模型 版 本 。 当 外 部 条 件 可 能 发 生 改变 并 导致 决策 质量 随时 间 推 移 不 断 下 降 
时 ,这 种 对 生产 样本 进行 采样 的 做 法 十 分 重要 。 在 这 种 情况 下 ,我 们 可 以 训练 一 个 新 的 模型 ,使 
决策 质量 得 到 改善 或 恢复 到 原来 的 水 平 。 


13.3.3 ”预测 变量 与 目标 变量 


变量 是 一 个 样本 某 个 特征 或 特性 的 值 。 这 个 值 可 以 是 通过 测量 或 计算 得 到 的 。 分 类 需 的 最 终 
目标 是 估计 一 个 特定 问题 的 分 类 答案 ， 这 个 答案 就 是 目标 变量 。 在 生产 环境 中 ,目标 变量 是 需要 
为 每 个 新 样本 寻找 的 值 。 在 训练 阶段 ， 每 个 历史 数据 ( 训练 数据 ) 的 目标 变量 都 是 已 知 的 ， 并 被 
用 来 训练 模型 。 

在 分 类 中 , 预测 变量 是 为 模型 提供 的 线索 ,以便 模型 能 判断 为 各 个 样本 赋 一 个 什么 样 的 目标 
变量 。 用 于 分 类 的 预测 变量 也 称 为 输入 变量 (input variable ) 或 预测 因子 (predictor )。 

用 来 分 类 的 样本 特性 也 称 为 特征 ; 对 一 个 特定 特性 进行 描述 , 以便 用 于 分 类 系统 的 过 程 叫 做 
特征 提取 。 如 果 一 个 特征 被 选 作 模 型 的 输入 ， 那 么 我 们 可 以 将 该 特征 的 值 看 做 预测 变量 。 

回忆 前 面 那 个 顾客 为 晚餐 买 酒 的 场景 。 酒 的 属性 (如 “颜色 ”““ 适 合 搭配 牛排 “ “适合 搭配 
鱼 ”、“ 适 合 搭 配 比 院 ”)， 以 及 其 他 属性 ( 如 价格 )， 都 被 顾客 用 于 做 决策 ( 买 或 不 买 )。 在 购买 决 
策 过 程 中 , 酒 的 这 些 特征 类 似 于 机 融 分 类 中 模型 输入 的 预测 变量 。 类 比 到 这 个 例子 , 决策 有 一 个 
二 值 目标 变量 : 买 或 者 不 买 。 每 瓶 酒 仅 对 应 一 个 选择 。 


~ 


注意 在 训练 时 目标 变量 和 预测 变量 都 会 提交 给 学 习 算 法 。 然 而 ， 在 测试 和 生产 过 程 中 ， 仅 有 
预测 变量 是 对 模型 可 见 的 。 


在 准备 分 类 系统 时 , 大 多 效用 作 训 练 数据 的 历史 样本 都 会 有 一 个 目标 变量 信 的 标注 。 在 测试 
过 程 中 ,测试 数据 的 目标 变量 会 被 保护 起 米 。 对 比 模型 佑 计 的 目标 值 与 各 测试 样本 已 知 的 目标 值 ， 
可 以 反映 分 类 模型 的 精度 。 

对 于 分 类 ， 表 示 目 标 变 量 的 字段 必须 有 一 个 类 别 型 ( categorical， 也 常常 译 为 指称 型 ) 的 值 。 
而 预测 变量 的 值 则 可 以 是 连续 的 ,或 者 类 别 型 ， 或 者 文本 ， 或 者 单词 。 你 会 在 13.3.5 廊 了 解 这 些 
值 的 类 型 ( 连续 、 类 别 型 、 文 本 型 或 单词 型 )。 通常 , 目标 变量 是 一 个 二 值 类 别 变量 ,也 就 是 说 ， 
它 仅 有 两 种 可 能 的 取信 。 垃圾 邮件 检测 就 是 一 个 有 者 二 值 类 别 型 变量 的 分 类 系统 的 例子 : 邮件 是 
垃圾 或 不 是 垃圾 。 当 目标 变量 有 两 个 以 上 的 可 能 值 时 , 称 为 多 类 分 类 问题 。 第 14 草 (14.4 太 和 14.6 
节 ) 有 一 个 使 用 取 自 20 Newsgroups 数 据 的 多 类 分 类 的 例子 。 
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13.3.4 记录、 字段 和 值 


构成 分 类 算法 输入 的 样本 通 弟 表示 为 记录 的 形式 ,我 们 可 以 将 记录 看 做 存放 一 个 样本 值 的 仓 
库 (无 论 是 训练 样本 ,还 是 生产 环境 中 使 用 的 新 样本 )。 记 录 通 常 包含 一 些 命名 字段 ， 每 个 字段 
都 有 一 个 值 。 

每 个 训练 样本 的 记录 都 会 有 一 些 字 段 ， 用 于 存放 目标 变量 和 一 个 或 多 个 预测 变量 ， 如 图 13-3 
所 示 。 当 然 , 一 个 生产 样本 中 目标 变量 的 字段 是 未 知 值 ， 需 要 由 分 类 算法 来 确定 。 生 产 过 程 中 模 
型 的 输出 就 是 目标 变量 的 估计 值 ， 在 图 中 用 T 表 示 。 每 个 输入 样本 都 会 相应 地 有 一 个 输出 。 


图 13-3 ”分 类 模型 的 输入 与 输出 ， 目标 变量 (T ) 与 预测 变量 (xl ... xn ) 。 注 意 ， 在 训练 
阶段 T 是 包含 在 输入 数据 中 的 ， 而 生产 阶段 则 从 输入 数据 中 剥离 (用 ?表示 ) 

尽管 目标 值 只 能 是 类 别 型 , 但 表示 用 作 预 测 变 量 的 特征 则 可 以 是 多 种 不 同类 型 的 值 。 下面 我 
们 会 对 它们 进行 比较 。 
13.3.5 ”预测 变量 值 的 4 种 类 型 

预测 变量 在 学 习 算 法 中 用 作 输 入 , 但 哪个 变量 有 用 则 部 分 取决 于 值 的 类 型 。 区 分 变量 值 的 类 
型 不 仅仅 是 一 个 学 术 上 的 问题 。 正 确 识别 值 的 类 型 有 助 于 改善 分 类 系统 。 

预测 变量 的 值 有 4 种 常见 类 型 ， 即 连续 型 、 类 别 型 、 单 词 型 和 文本 型 ， 参 见 表 13-3。 


表 13-3 用 来 表示 特征 的 4 种 常见 类 型 


值 的 类 型 描 述 

连续 型 ” 这 是 一 个 浮 点 值 。 这 类 值 可 能 是 人 价格、 重量、 时间， 或 其 他 任何 具有 数值 大 小 的 量 ， 且 这 个 大 小 是 值 的 
关键 属性 

类 别 型 ” 一 个 类 别 型 值 可 以 从 一 个 预先 指 定 的 集合 中 取 值 。 尽 管 类 别 型 值 的 集合 可 以 非常 大 ,但 通常 这 个 集合 很 


小 ， 而 且 可 能 就 只 有 两 个 元 杂 。 布 尔 值 通 第 被 视 为 类 别 型 值 。 男 一 个 例子 是 供应 商 ID 

单词 型 ”单词 型 值 就 像 类 别 型 值 ， 但 它 可 取 值 的 集合 是 无 限 的 

文本 型 ” 文本 型 值 是 多 个 单词 型 值 的 序列 ， 全 部 是 同一 类 型 。 文 本 是 文本 型 值 的 典型 示例 ， 但 一 个 电子 邮件 地 址 
列表 或 URL 列 表 也 是 文本 型 的 
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区 分 连续 型 值 和 类 别 型 值 通 铝 比较 困难 。 通 癌 ， 数 字 识 别 码 会 被 误 认 为 连续 值 , 但 实际 上 它 
们 应 该 被 视 为 类 别 型 值 。 举 个 例子 ， 考 虑 下 面 这 些 值 ， 它 们 表示 邮政 编码 的 前 三 个 数字 : 757、 
415、215、809 以 及 446。 这 些 值 看 起 来 都 是 数值 型 值 ， 你 倾向 于 把 它们 视 为 连续 的 ,但 它们 更 符 
合 类 别 型 的 描述 , 因为 每 个 值 都 取 上 自 一 个 预先 指定 的 值 的 集合 。 将 一 个 类 别 型 值 视 作 连续 型 值 会 
严重 影响 分 类 融 的 精度 ， 反 之 亦 然 。 


提示 像 整 数 这 样 的 对 得 未 必 是 连续 的 。 一 个 重要 的 检验 标准 是 将 两 个 值 相 加 ， 或 取 一 个 值 的 
对 数 或 平方 根 。 如 果 得 到 的 结果 是 未 定义 的 ， 那 这 很 可 能 是 类 别 型 值 ， 而 非 连续 型 值 。 
另 一 个 提示 是 ， 任 何 有 相关 计量 单位 的 度量 通常 都 是 连续 变量 。 


单词 型 值 吓 关 别 型 值 的 扩展 , 这 种 情况 下 有 许多 可 能 的 值 。 二 者 之 间 的 区 别 在 于 一 个 特征 可 
取 的 值 有 多 少 个 。 即 使 某 个 特征 可 以 取 很 多 个 值 ， 就 会 存在 有 限 的 预先 指定 值 表 吗 ? 当 你 无 法 确 
定 有 多 少 个 可 取 的 值 时 ,变量 就 很 可 能 是 单词 型 的 。 通 篆 ,， 我 们 很 难 判定 应 该 将 一 个 值 视 为 单词 
型 还 是 类 别 型 。 例 如 , 汽车 的 品牌 或 型 号 似 乎 是 类 别 型 的 , 但 新 的 汽车 品牌 或 型 写 随 时 可 能 出 现 ， 
因此 把 这 样 一 个 值 视 为 单词 型 可 能 是 更 好 的 选择 。 

在 茶 些 场合 ,类别 型 可 取 的 值 或 许 有 儿 千 个 ,甚至 更 多 , 通 笛 把 它们 视 为 单词 型 更 合适 。 如 
末 你 已 经 有 许多 可 能 的 值 , 很 可 能 值 的 集合 并 不 像 你 想象 的 那样 固定 。 有 时 候 ， 类 别 型 值 可 能 
菏 种 顺序 ， 但 Mahout 中 的 分 类 算法 目前 并 没有 考虑 这 种 顺序 。 

如 打 有 这 样 一 个 变量 ,其 值 可 以 被 视 为 单词 型 值 的 集合 ,你 应 该 考虑 将 它 看 成 是 文本 型 ， 尽 
管 仅 在 少数 样本 中 会 出 现 一 个 以 上 的 这 种 值 。 文 本 型 值 通 篆 存 储 为 字符 串 , 因此 需要 词 条 化 工具 
将 字符 串 转 换 成 单词 型 值 的 序列 。 


提示 通常 可 以 基于 这 样 一 个 事实 来 判定 变量 是 文本 型 的 ， 即 值 的 成 分 可 以 以 任意 组 合 的 形式 
出 现 。 基 于 这 一 点 ,一 个 可 取 值 为 General Motors、Ford 或 Chrysler 的 值 并 非 文 本 型 ， 尽管 
General Motors 包 含 了 两 个 词 。 这 是 因为 像 General Chrysler Ford 这 样 的 值 无 效 。 


查看 表 13-4 时 请 回顾 一 下 表 13-3 中 的 描述 ， 前 者 列 出 了 取 目 不 同 数 据 源 的 一 些 样本 。 第 一 个 
值 是 一 个 电子 邮件 地 址 , 是 取 自 开放 式 集合 的 单个 实体 ， 因 此 是 单词 型 。 垃 圾 邮件 单词 值 或 非 垃 
圾 邮件 单词 值 由 一 个 单词 列表 (或 可 能 的 单词 ) 组 成 ， 因 此 被 认为 是 文本 型 的 。 

表 13-4 ”4 种 类 型 值 的 样本 数据 。 这 些 样本 是 典型 的 电子 邮件 数据 的 特征 


名 处 类 型 值 
from-address 单词 型 George 
in-address-book? 类 别 型 ( TRUE、FALSE) TRUE 
non-spam-words 文本 型 Ted, Mahout, User, lunch 
spam-words 文本 型 avallable 
unknown-words 连续 型 0 
message-length 连续 型 31 
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注意 关于 一 个 特定 算法 中 会 使 用 何 种 类 型 的 预测 变量 ,， 详 见 14.5 节 的 讲解 。 


学 习 是 有 监督 的 还 是 无 监督 的 , 是 分 类 和 其 他 Mahout 功 能 ( 如 聚 类 或 推荐 ) 的 一 个 区 别 。 下 
一 节 会 解释 这 个 术语 。 


13.3.6 ”有 监督 学 习 与 无 监督 学 习 


分 类 算法 与 聚 类 算法 (如 前 面 各 章 中 提 到 的 k-means 算 法 ) 相关 ,但 又 大 不 相同 。 分 类 算法 
是 一 种 有 监督 学 习 , 这 与 聚 类 算法 的 无 监督 学 习 正 好 相反 。 有 监督 学 习 算 法 处 理 的 是 市 有 期 望 目 
标 变 量 值 的 训练 样本 。 无 监督 算法 则 没有 期 望 的 答案 ， 取 而 代 之 的 是 对 数据 的 合理 解释 。 

有 监督 学 习 算 法 和 无 监督 学 习 算 法 通 笛 可 以 有 效 地 结合 起 来 。 聚 类 算法 可 以 用 来 生成 为 学 习 
算法 所 用 的 特征 , 或 者 多 个 分 类 右 的 输出 可 以 作为 特征 为 限 类 算法 所 用 。 此 外 ， 肾 类 系统 通 第 会 
建立 一 个 可 用 于 对 新 数据 进行 分 类 的 模型 。 该 聚 类 系统 模型 的 工作 方式 与 分 类 系统 生成 的 模型 非 
第 类 似 。 不 同 之 处 在 于 生成 模型 的 数据 。 对 于 分 类 , 训练 效 据 包 含 了 目标 变量 。 而 对 于 聚 类 来 说 ， 
训练 数据 不 包含 目标 变量 。 

现在 你 应 该 对 分 类 是 什么 有 了 一 个 基本 的 认识 ,并 且 知 道 使 用 Mahout 对 超大 规模 数据 集 进行 
分 类 的 优势 ; 是 时 候 把 这 些 想法 付 诸 实践 了 。 
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虽然 具体 项 目 之 间 会 存在 差异 ， 但 构建 并 运行 分 类 系统 都 需要 遵循 一 系列 非常 标准 的 步骤 。 
在 这 一 方 ， 我 们 给 出 了 分 类 项 目的 典型 工作 流 : 训练 模型 ， 评 估 并 调整 模型 以 达到 可 接受 水 平 ， 
然后 在 生产 环境 中 运行 系统 。 我 们 将 使 用 合成 数据 阐述 工作 流程 中 的 一 些 步 又 。 最 后 ，13.5 人 给 
出 了 一 个 更 完整 的 示例 ， 用 Mahout 完 成 分 类 项 目 。 

作为 任何 项 目的 先决 条 件 ， 你 需要 确定 要 寻找 的 信息 〈 目标 变量 ) 是 否 能 够 当做 特征 ， 以 适 
当 形式 存储 在 一 条 记录 中 ,并且 符 合 总 体 目标 的 要 求 ， 比 如 识别 欺诈 性 的 金融 交易 。 有 时 候 , 你 
需要 根据 一 些 现实 因素 调整 目标 变量 的 选择 ， 例 如 训练 代价 、 隐 私 问 题 等 。 你 也 需要 知道 有 哪些 
数据 可 用 于 训练 ， 系 统 运 行 时 又 会 遇 到 什么 新 数据 ， 这 样 才 能 设计 出 有 用 的 分 类 条 。 


注意 通常 ， 构 建 分 类 器 的 大 部 分 精力 会 花 在 设计 并 提取 有 用 的 特征 上 。 这 一 步 所 需 的 工作 量 
也 常常 超出 预期 。 


分 类 项 目的 一 般 开发 步 又 如 表 13-5 所 示 。 系 统 每 个 阶段 的 准确 性 和 输出 结果 的 有 效 性 ,很 大 
程度 上 反映 了 用 作 预 测 变量 的 原始 特征 选择 和 目标 变量 的 类 别 选择 的 好 坏 。 对 于 每 种 选择 而 言 并 
不 存在 单一 的 正确 选择 : 有 很 多 可 取 的 方法 和 调整 手段 , 要 构建 一 个 高 效 、 健 壮 的 系统 ,需要 尝 
试 一 些 不 同 的 方法 。 
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表 13-5 ”典型 分 类 项 目的 工作 流 


阶段 步 又 
(1) 训练 模型 定义 目标 变量 
搜集 历史 数据 
定义 预测 变量 
选择 学 习 算法 
使 用 学 习 算法 训练 模型 
(2) 评估 模型 在 测试 数据 上 运行 
调整 输入 ( 改变 预测 变量 、 改 变 算法 ,或 二 者 一 起 改变 ) 
(3) 在 生产 中 使 用 模型 输入 新 样本 ,估计 未 知 的 目标 变量 值 


在 必要 时 重新 训练 模型 


训练 和 评 佑 模型 的 过 程 中 ， 每 一 步 的 特征 选择 都 需要 综合 考虑 经 济 和 时 间 上 是 否 负担 得 起 ， 
以 及 模型 估计 值 的 精度 是 否 可 以 接受 。 
在 下 面 的 儿 节 中 ， 我 们 将 会 具体 讨论 分 类 的 3 个 阶段 。 


13.4.1 第 一 阶段 工作 流 : 训练 分 类 模型 


在 分 类 项 目的 第 一 阶段 , 你 需要 心中 有 一 个 目标 变量 , 这 有 利于 选择 合适 的 历史 数据 用 于 训 
练 ， 以 及 选择 有 效 的 学 习 算法 。 这 些 决策 之 间 都 是 密切 相关 的 。 

在 下 面 的 讨论 中 ， 我 们 将 考察 特征 选择 方法 对 Mahout 学 习 算 法 的 具体 影响 方式 ， 确 定 哪个 
Mahout 学 习 算 法 适合 当前 的 分 类 兹 。 

1. 定义 目标 变量 的 类 别 

定义 目标 变量 涉及 目标 变量 类 别 的 定义 。 目标 变量 不 能 在 一 个 开放 和 集合 中 取 值 。 你 选择 的 类 
别 , 反 过 来 也 会 影响 你 对 学 习 算 法 的 选择 ， 因 为 东 些 算法 仪 适用 于 二 值 目标 变量 的 情况 。 目 标 变 
量 的 类 别 数 越 少 越 好 ， 如 果 可 以 把 类 别 数 降 到 两 个 的 话 ， 那 么 会 有 更 多 的 学 习 算 法 可 供 选 择 。 

如 采 目 标 变量 不 适合 降低 到 简单 形式 , 你 可 能 需要 构建 多 个 分 类 系统 , 各 目 处 理 你 预期 目标 
变量 的 某 个 方面 。 在 你 最 终 的 系统 中 , 你 可 以 把 这 些 分 类 系统 的 输出 组 合 起 来 ， 以 提供 所 需 的 全 
面 而 细致 的 决策 或 预测 。 

2. 搜集 历史 数据 

你 所 选择 的 历史 数据 源 ， 部 分 依赖 于 搜集 带 标 注 历史 数据 的 具体 需求 。 在 某 些 问题 中 ， 确定 
目标 变量 的 全 是 很 困难 的 。 

俗话 说 垃圾 堆 里 出 垃圾 , 放 在 这 里 很 合适 , 你 需要 小 心 庶 层 地 确保 历史 数据 中 目标 变量 值 的 
准确 性 。 在 一 个 有 缺陷 的 目标 变量 或 数据 搜集 过 程 基础 上 建立 了 很 多 模型 之 后 , 由 于 模型 的 效果 
很 差 ， 你 可 能 并 不 想 再 构建 其 他 模型 了 。 

3. 定义 预测 变量 

选择 了 一 个 有 效 的 目标 变量 并 定义 好 其 可 选 值 集合 之 后 , 你 需要 定义 预测 变量 。 这 些 变量 是 
从 训练 和 测试 样本 中 提取 的 特征 的 具体 编码 。 
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你 需要 再 一 次 检测 样本 源 , 硝 你 它 们 的 特征 有 效 , 且 它 们 的 值 能 以 适当 的 格式 存放 在 记录 中 。 
图 13-3 给 出 了 用 于 训练 、 测 试 数 据 以 及 生产 数据 的 记录 中 的 预测 变量 。 


警告 选择 并 定义 预测 变量 的 一 个 常见 错误 是 在 预测 变量 中 包含 目标 泄漏 (target leak )。 


定义 预测 变量 的 一 个 重要 考虑 因 系 是 避免 导致 目标 泄 狂 。 目 标 洪 漏 , 顾名思义 , 是 一 个 错误 
指 在 选择 预测 变量 时 , 无 意 中 引 入 了 目标 变量 的 信息 。 此 错误 与 在 训练 样本 中 有 意 包 含 目 标 变量 
不 同 。 

目标 泄漏 会 严重 影响 分 类 系统 的 精度 。 当 你 告诉 分 类 融 目 标 变 量 是 一 个 预测 变量 时 , 这 个 问 
懒 会 相当 明显 。 这 是 一 个 显而易见 的 问题 ,但 它 经 党 发 生 。 

目标 泄漏 可 能 很 微妙 。 假设 需要 构建 一 个 垃圾 邮件 检测 各 , 你 将 垃圾 邮件 和 非 垃圾 邮件 样本 
放 入 不 同 的 文件 ,随后 在 各 个 文件 中 按 顺 序 给 样本 标 上 序号 。 同 一 文件 中 的 样本 将 会 有 春 肝 个 范 
围 内 的 连续 序号 ， 而 这 一 点 可 以 用 来 区 分 垃圾 和 非 垃 圾 邮件 。 如 果 存 在 这 种 类 型 的 目标 泄漏, 很 
多 分 类 算法 都 会 迅速 发 现 序 号 的 范围 与 垃圾 / 非 垃圾 邮件 的 对 应 关系 , 并 仅 依赖 该 特征 解决 问题 ， 
因为 它 (在 训练 数据 中 ) 看 起 来 是 完全 可 笔 的 。 这 就 是 问题 所 在 ， 当 你 将 新 数据 传递 给 一 个 几乎 
完全 依赖 序号 的 模型 时 , 这 个 模型 只 能 举 手 投 降 了 ,因为 新 样本 中 的 序号 可 能 不 在 前 面 的 范围 之 
内 。 该 模型 很 可 能 将 新 样本 归 人 具有 最 大 序 吕 的 范围 。 

目标 汽 漏 可 能 是 相当 隐 紫 的 ， 很 难 找到 。 最 好 的 建议 是 ， 对 结果 太 理 想 的 模型 持 怀 疑 态 度 。 

4. 例 1: 将 位 置 用 作 预 测 变量 

我 们 用 一 个 使 用 合成 数据 的 简单 例子 演示 如 何 选择 预测 变量 , 以 使 Mahout 习 得 的 模型 能 够 准 
确 地 预测 期 望 的 目标 变量 。 图 13-4 中 是 一 个 历史 数据 集合 。 假 设 你 在 搜索 颜色 填充 的 形状 一 一 闫 
色 填 充 是 目标 变量 。 这 个 问题 中 ,什么 特征 最 适合 用 作 预 测 变 量 呢 ? 


图 13-4 ”使 用 位 置 来 对 颜色 填充 进行 分 类 : 在 这 个 历史 数据 中 ， 目 标 变量 是 颜色 十 
充 ， 特征 可 以 视 为 包含 形状 和 位 置 的 预测 变量 。 位 置 看 起 来 更 适合 用 作 预 
测 变量 一 一 水 平 (x ) 坐标 可 能 就 足够 了 了 。 形 状 似乎 并 不 重要 
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对 于 分 类 问题 ,你 必须 确定 目标 变量 的 类 别 ， 在 这 个 例子 里 束 是 闫 色 填 充 。 颜色 填充 很 明显 
有 两 种 可 能 取 值 ， 即 填充 或 未 填充 。 你 也 可 以 用 一 个 答案 为 是 或 否 的 问题 作为 目标 变量 :“ 元 素 
是 否 填 充 颜色 ? “” 

不 要 认为 这 一 点 是 理所当然 的 ,因此 请 检查 历史 数据 ,确保 它 包 含 了 目标 变量 。 这 里 它 明 显 
包含 了 (很 好 ! )， 但 现实 世界 中 并 不 总 是 如 此 明显 。 

现在 你 需要 选择 用 作 预 测 变量 的 特征 。 哪 些 特征 是 你 可 以 正确 表述 的 呢 ? 首先 排除 颜色 十 
充 ( 它 是 目标 变量 )， 你 可 以 将 位 置 或 形状 用 作 变 量 。 你 可 以 用 x 和 y 坐 标 来 描述 位 置 。 基 于 一 
个 数据 表 ， 你 可 以 为 每 个 样本 创建 一 条 记录 ， 包 含 目 标 变 量 和 你 正在 考虑 的 预测 变量 的 字段 。 
图 13-5 是 两 个 训练 样本 的 记录 示例 。( 这 个 例子 的 完整 数据 可 以 在 Mahout 源 代码 的 examples 模 
块 中 找到 。) 


? 标 替 未 形状 
是 否 填充 颜色 ? | / 
| no | 0.92 DT circle 
YeS 0.30 0 .41 square 
目标 变量 预测 变量 


图 13-5 训练 数据 中 的 两 条 记录 。 图 13-4 中 数据 的 记录 包含 存储 目标 变量 值 的 字段 ， 
以 及 存储 预测 变量 值 的 字段 。 在 这 种 情况 下 ,， 与 位 置 (x、y 坐 标 ) 和 形状 相关 
的 值 包含 在 两 个 样本 中 


如 果 再 次 查看 图 13-4 所 示 的 历史 数据 ， 你 会 发 现 尽 省 训练 数据 同时 具有 位 置 和 形状 信息 ，x 
坐标 就 是 以 用 于 区 分 填充 和 未 填充 的 人 符号。 形状 对 于 判定 一 个 符号 是 否 被 颜色 填充 不 起 作用 ， 
坐标 也 是 如 此 。 


提示 不 是 所 有 特征 都 对 每 一 个 分 类 问题 有 有 用。 特定 场合 和 你 的 具体 问题 决定 了 哪些 特征 会 是 
有 效 的 预测 变量 。 了 解 你 的 数据 是 成 功 的 关键 。 


在 设计 分 类 系统 时 , 你 需要 根据 经 验 选择 最 可 能 有 效 的 特征 , 模型 的 准确 性 也 会 反映 出 你 的 
选择 是 否 正 确 。 没 有 必要 排除 所 有 没有 区 分 力 的 特征 , 但 是 引入 的 见 余 或 无 关 特征 越 少 , 分 类 带 
提供 准确 结果 的 可 能 性 就 越 大 。 例 如 图 13-4 中 的 数据 ， 可 能 最 好 忽略 ?坐标 和 形状 ， 仅 使 用 x 坐 标 
训练 模型 。 

5. 例 2: 不 同 的 数据 需要 不 同 的 预测 变量 

仅仅 因为 新 搜集 的 数据 跟 以 前 的 数据 具有 同样 的 特征 , 就 使 用 跟 以 前 同样 特征 的 预测 变量 是 
不 对 的 。 这 一 观点 在 图 13-6 中 得 到 了 体现 。 这 里 你 可 以 看 到 另 一 组 历史 数据 ， 它 们 与 之 前 的 数据 
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有 春 同样 的 特征 。 但 在 这 种 情况 下， 无 论 x 还 是 y 坐 标 似乎 部 对 预测 符号 古 否 填 充 颜 色 没 有 作用 。 
位 置 不 再 有 用 ， 但 现在 形状 成 为 了 一 个 有 用 的 特征 。 


图 13-6 ”使 用 形状 对 颜色 填充 进行 分 类 : 这 个 数据 与 图 13-4 中 的 数据 使 用 同样 的 特征 
(形状 和 位 置 ) ， 但 预测 目标 变量 〈 颜色 填充 ) 需要 使 用 不 同 的 预测 变量 。 这 
里 ,位 置 不 再 有 效 , 但 形状 很 有 用 


在 这 个 例子 中 ， 选 作 预 测 变量 的 特征 ( 形状 ) 具有 3 种 值 ( 圆 形 、 三 角形 、 正 方形 )。 如 
果 有 必要 ， 你 可 以 进一步 引入 瑚 问 ， 来 区 分 这 些 形状 (方形 与 乏 形 ; 旨 上 的 三 角形 和 天 下 的 
三 角形 )。 

6. 选择 一 个 学 习 算 法 来 训练 模型 

在 任何 项 目 中 ,你 都 必须 在 选择 所 要 使 用 的 算法 时 考虑 一 些 参数 ,例如 训练 数据 的 规模 、 预 
测 变量 的 特性 ， 以 及 目标 变量 的 类 别 数 等 。Mahout 的 分 类 算法 包括 朴素 由 叶 斯 (naive Bayes )、 
补充 朴素 贝 叶 斯 (complementary naive Bayes )、 随 机 梯度 下 降 ( Stochastic Gradient Descent, SGD ) 
以 及 随机 和 森林 (random forest ), 其 中 朴素 贝 叶 斯 、 补 充 朴 又 贝 叶 斯 以 及 SGD 的 使 用 和 效果 会 在 14.5 
节 详 细 讨 论 。 

即使 是 前 面 那些 简单 的 例子 , 不 同 的 算法 也 各 有 优势 。 在 例 1 中 ,训练 算法 应 该 使 用 x 坐标 位 
置 来 判定 颜色 填充 。 在 例 2 中 ,形状 更 有 用 。 然 而 ,一 个 点 的 x 坐标 点 位 置 是 连续 变量 ， 某 些 算法 
可 以 很 好 地 使 用 连续 变量 。 在 Mahout 中 ,SGD 和 随机 和 森林 法 就 是 如 此 。 为 一 些 算法 则 无 法 使 用 连 
续 变 量 ， 例 如 朴素 由 叶 斯 和 补充 朴素 贝 叶 斯 。 

当 数 据 集 规 模特 别 大 时 , 并 行 算法 对 速度 的 提升 很 明显 ,那么 , 为 什么 有 时 也 会 用 非 并 行 ( 串 
行 ) 算法 做 分 类 呢 ? 答案 很 简单 ， 因 为 有 些 东西 需要 我 们 做 出 权 衔 。 并 行 算 法 有 相当 大 的 额外 开 
销 ， 就 好 像 它 开始 处 理 样本 之 前 ， 需 要 花 一 些 时 间 去 “找到 车 钥匙 ， 然 后 下 到 和 车道 "。 即 使 你 可 
以 接受 这 个 时 间 上 的 开销 ， 对 于 某 些 中 等 规模 的 数据 集 ， 串 行 算法 可 能 不 仅仅 是 够 用 ， 而 往往 是 
首选 的 。 这 种 权衡 如 图 13-7 所 示 ， 其 中 比较 了 假设 的 串 行 和 并 行 可 扩展 算法 的 运行 时 间 。 
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并 行 算法 


串 行 算法 


训练 样本 数目 


优先 选择 囊 行 蜡 法 。 优先 选择 并 行 算法 
图 13-7 ”对比 两 个 Mahout 分 类 算法 ， 两 种 算法 都 是 可 扩展 的 


在 项 目 规模 较 小 时 ， 帅 行 算法 在 时 间 上 比较 有 优势 。 在 中 等 规模 时 ， 两 种 算法 性 能 乔 比 较 理 
想 。 当 训练 样本 数 变 得 非常 大 时 ， 并 行 算法 要 优 于 串 行 算法 。 

我 们 在 图 13-1 中 解释 过 ， 并 行 算 法 时 间 开 销 曲 线 中 饮 齿 形状 的 下 降 部 分 是 由 于 添加 了 新 机 种 。 

7. 使 用 学 习 算 法 训练 模型 

确定 并 封 冯 好 合适 的 目标 变量 和 预测 变量 集 , 并 选 好 了 和 学习 算法 之 后 , 训练 的 下 一 步 就 是 运 
行 训练 算法 来 生成 模型 《这些 步 又 参见 图 13-3 )。 这 个 模型 会 捕获 学 习 算法 所 能 看 清 的 预测 变量 
与 目标 变量 之 间 关 系 的 本 质 。 

对 于 例 1， 模 型 可 能 是 类 似 下 面 的 伪 代 码 : 


if (x > 0.5) return FILLED:; 
else return UNFILLED; 


当然 , 学 习 算 法 所 产生 的 真实 模型 并 不 会 以 这 种 方式 实现 , 但 这 展示 了 本 例 中 可 以 工作 的 规 
则 有 多 简单 。 
13.4.2 ”第 二 阶段 工作 流 : 评估 分 类 模型 


在 生产 中 使 用 分 类 系统 之 前 有 一 个 必要 步骤 , 即 确定 它 到 底 能 有 多 好 的 表现 。 要 做 到 这 一 点 ， 
你 必须 评估 该 模型 的 准确 性 ， 并 在 真正 开始 分 类 之 前 做 出 或 大 或 小 的 调整 。 

评 舍 训 练 好 的 模型 通 稍 并 不 简单 。 第 16 章 详细 介绍 了 在 准备 将 系统 投入 生产 之 前 , 如何 对 模 
型 进行 评估 和 调 优 。13.5 节 有 一 个 循序 渐进 的 例 于 ， 你 将 初步 了 解 如 何 评 个。 


13.4.3 ”第 三 阶段 工作 流 : 在 生产 中 使 用 模型 
一 旦 模型 输出 的 准确 性 达到 可 接受 的 范围 ,我 们 就 可 以 对 新 数据 分 类 了 。 生 产 中 分 类 系统 
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的 性 能 取决 于 很 多 因素 ， 最 重要 的 一 个 因素 是 输入 数据 的 质量 。 如 果 需 要 分 析 的 新 数据 预测 变 
量 的 值 不 准确 ， 或 者 新 数据 与 训练 数据 不 一 致 ， 或 外 部 条 件 随 着 时 间 发 生 了 改变 ， 分 类 模型 输 
出 的 质量 都 会 下 降 。 为 避免 这 些 问 题 ， 对 模型 进行 周期 性 的 复 检 是 很 有 用 的 ， 有 时 有 必要 重新 
训练 模型 。 

要 进行 复 检 ， 你 需要 搜集 新 的 样本 ， 并 验证 或 生成 目标 变量 值 。 然 后 可 以 像 第 二 阶段 一 样 ， 
将 这 些 新 样本 作为 测试 数据 ， 比 较 这 些 结果 和 原始 数据 中 保留 用 于 测试 的 数据 集 的 结果 。 如 果 新 
的 结果 明显 恶化 ， 这 就 意味 看 某 些 因 系 发 生 了 变化 ， 你 需要 考虑 重新 训练 模型 。 

注意 需要 重新 训练 模型 的 一 个 常见 原因 : 将 模型 集成 到 你 的 系统 时 会 极 大 幅度 地 改变 系统 。 
举 个 例子 ， 如 果 一 家 大 银行 部 署 了 一 个 非常 有 效 的 欺诈 检测 系统 ， 会 怎样 ? 在 数 月 或 数 年 之 内 ， 
骗子 会 慢 慢 适应 并 开始 采用 原始 模型 无 法 检测 的 新 技术 。 在 这 些 新 的 欺诈 方法 造成 重大 损失 之 
前 ， 银 行 的 建 模 人 员 监 测 到 精度 下 降 并 更 新 模型 是 很 重要 的 。 

一 个 分 类 系统 的 性 能 有 所 降低 时 ， 并 不 一 定 就 要 放弃 这 种 方法 。 使 用 新 的 、 更 合适 的 训练 数 
据 重新 训练 模型 也 许 就 足够 了 。 另 外, 对 训练 算法 做 出 某 些 调整 可 能 会 有 用 。 实 时 评估 也 是 重新 
训练 的 一 部 分 ，16.4.1 闻 讨论 模型 更 新 时 会 有 更 具体 的 阐述 。 


13.5 ”循序 渐进 的 简单 分 类 示例 


现在 你 已 经 掌握 了 一 些 基 本 知识 , 包括 分 类 是 什么 ,以 及 典型 项 目的 工作 流程 。 你 也 看 到 了 
针对 要 处 理 的 问题 ， 仔 细 选 择 用 作 预 测 变量 的 特征 和 选择 竺 估计 目标 变量 的 重要 性 。 

虽然 Mahout 的 目标 是 处 理 海量 数据 集 ， 但 先 从 一 个 简单 的 例子 人 手 ， 更 有 助 于 熟悉 Mahout。 
这 一 节 将 带 你 在 小 规模 真实 数据 集 上 用 Mahout 实 现 一 个 分 类 融 。 下面 我 们 会 介绍 使 用 的 数据 、 如 
何 训练 模型 ， 以 及 如 何 调 优 分 类 需 以 使 其 更 加 准确 。 


13.5.1 数据 和 挑战 


这 一 节 带 你 训练 一 个 分 类 模型 , 来 解决 填充 颜色 的 判定 问题 ; 这 里 使 用 与 前 面 草 市 类 似 的 合 
成 数据 。 在 训练 数据 中 ， 目 标 变量 仍然 是 填充 颜色 ， 有 两 个 类 别 : 填充 和 未 填充 。 在 这 个 数据 集 
中 , 位 置 是 预测 颜色 填充 的 关键 ,我 们 将 使 用 Mahout 中 的 随机 梯度 下 降 (SGD ) 分 类 算法 来 训练 
模型 。 

这 个 DIY 实 践 项 目 中 的 历史 数据 如 图 13-8 所 示 ， 是 Mahout 发 行 版 的 一 部 分 。 为 帮助 你 学 会 使 
用 分 类 ，Mahout 在 包含 示例 程序 的 JAR 文 件 中 集成 了 几 个 这 样 的 数据 集 。 我们 将 这 类 数据 集 称 为 
甜 面 圈 数 据 ( donut data )。 

在 这 个 简单 的 分 类 项 目 中 ， 目 标 变量 是 填充 颜色 ， 你 的 任务 是 构建 一 个 可 以 找到 填充 点 的 
系统 。 


图 13-8” 例 3， 用 于 简单 分 类 项 目的 数据 : 甜 面 圈 数 据 。 请 思考 一 下 ， 哪 些 特征 对 于 导 
找 填充 点 ( 即 实心 点 ) 有 用 呢 


13.5.2 ”训练 一 个 模型 来 寻找 颜色 填充 : 初步 设想 


在 思考 如 何 为 项 目 训 练 醒 型 时 ， 请 想 想 什 么 样 的 预测 变量 会 有 效 。 在 13.3.1 节 讨论 并 示 于 图 
13-4 的 例子 中 ， 关 键 是 位 置 ， 而 非 形 状 。 粗 略 地 看 下 图 13-8 你 就 会 知道 ， 在 这 个 侧 单 的 数据 集中 
位 置 仍然 是 关键 。 但 是 你 可 能 会 有 些 疑 惑 ， 在 这 个 例子 中 ,无论 是 zx 坐标 还 是 坐标， 还 是 二 者 的 
组 合 ， 都 不 足以 预测 填充 点 的 位 置 。 

对 于 像 位 置 这 样 的 特征 ， 用 作 变 量 的 方式 不 只 一 种 。 也 许 把 位 置 定 义 为 到 特定 点 一 一 如 A、 
B 或 C 一 一 的 距离 会 比较 有 效 ， 如 图 13-9 所 示 。 


图 13-9 ”如 采用 位 置 作 为 这 个 甜 面 轿 数 据 集 的 特征 ， 你 必须 根据 特定 目的 一 一 确定 填 
充 点 一 选 定 最 合适 的 位 置 。 在 本 例 中 ， 到 点 C 的 距离 看 起 来 最 有 效 
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尽管 x 和 y 坐 标 足 以 定位 任何 一 个 扣 , 但 再 要 预测 一 个 点 是 否 填充 时 , 用 它们 做 特征 并 不 合适 。 
引入 到 点 A、B 和 C 的 距离 重新 表示 位 置 ， 更 易于 为 这 个 数据 集 构 建 准确 的 分 类 带 。 有 到 点 C 的 距 
离 束 差不多 了 ,但 你 也 可 以 在 系统 中 加 入 额外 的 预测 变量 。 具 体 做 法 将 在 接 下 来 探讨 。 


13.5.3 选择 一 个 学习 算法 来 训练 模型 


Mahout 提 供 了 大 量 的 分 类 算法 ， 但 很 多 都 是 为 处 理 海 量 数据 而 设计 的 ， 因 此 用 起 来 有 点 有 三 
烦 一 一 至 少 在 起 步 阶段 是 这 样 的 。 不 过 , 也 存在 一 些 兄 于 上 手 的 算法 , 尽管 仍然 保持 了 可 扩展 性 ， 
但 它们 在 小 数据 集 上 的 额外 开销 会 比较 少 。 

用 于 Logistic 回 归 的 随机 梯度 下 降 ( SGD ) 算法 就 是 这 样 一 个 低 开销 的 方法 。 它 是 一 个 串 行 
( 非 并 行 ) 算法 , 但 是 正如 图 13-9 所 示 ， 它 很 快 。SGD 文 持 大 数据 处 理 的 很 重要 一 点 ， 是 它 仪 需 
要 固定 量 的 内 存 ， 而 不 受 输入 规模 的 影 啊 。 

1. 开始 运行 Mahout 

首先 ， 从 mahout.apache.org 下 载 Mahout 并 解压 。 假设 你 已 经 设 定 环 境 变 量 MAHOUT_HOME 的 值 
为 解压 后 的 目录 路 径 ， 那 么 可 以 通过 Mahout 的 命令 行 工 具 列 出 可 用 的 命令 : 


$s SMAHOUT HOME/bin/mahout 
An example program must be given as the first argument. 


Valid program names are: 


canopy: : Canopy clustering 
cat : Print a file or resource as the logistic regression models would see 
it 


runlogistic : Ron a logistic regression model against CSV data 


trainlogistic : Train a logistic regression using stochastic gradient 
descent 


这 里 我 们 最 为 感 兴 趣 的 命令 包括 cat 、trainlogistic 和 runlogistic。 

2. 查看 Mahout 的 内 建 数据 

为 帮助 你 者 手 进行 分 类 ，Mahout 将 一 些 数据 集 作为 资源 纳入 到 包含 示例 程序 的 JAR 文 件 中 ( 参 
见 examples/src/main/resource/ 目 录 )。 当 你 为 SGD 算 法 指定 一 个 输入 时 ,如 果 该 输入 没有 对 应 到 一 个 
现 有 的 文件 ， 但 该 名 称 存在 于 资源 中 ， 训 练 或 测试 算法 会 改 从 资源 中 读 取 该 名 称 所 对 应 的 数据 集 。 

要 列 出 其 中 任何 资源 的 内 容 ， 可 以 使 用 cat 命 令 。 例 如 ， 下 面 的 命令 会 将 图 13-8 所 示 甜 面 圈 
数据 集 的 内 容 列 出 来 : 


$s bin/mahout cat donut.csv 
se 1 "yn" 2 "shape" . naolor" nn j "nko nn Tw > "XYy" ”YY : ， Ul ; Wh : rh 


0.923307513352484,0.0135197141207755,21,2,4,8,0.852496764213146,..., 1 
0.711011884035543,0.909141522599384,22,2,3,9,0.505537899239772,...,， 1 
0.67132937326096,0.571220482233912,23,1,5,2,0.450683127402953,..., 1 
0O.548616112209857,0.405350996181369,24,1,53,3,0.300979638576258,..., 1 
0.677980388281867,0.993355110753328,25,2,3,9,0.459657406894831,...,， 1 


$ 
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注意 ， 这 里 大 部 分 内 容 痢 没有 显示 出 来 ， 而 是 用 省 略 号 (..) 代 蔡 了。 这 个 文件 的 第 一 行 指 
定 了 数据 各 个 字段 的 名 称 , 随后 各 行 就 是 数据 本 身 了 。 如 你 所 见 , 我 们 提 到 的 原始 预测 变量 包括 : 
x、y、shape (形状 ) 和 color (颜色 )。x 和 ?是 范围 [0,1] 内 的 数值 ， 而 形状 则 是 犯 于 21,25] 内 的 
整数 。 颜 色 是 一 个 整数 , 且 只 能 是 1 或 2。 因 为 用 一 个 正方 形 减 去 一 个 三 角形 没有 意义 ， 所 以 我 们 将 
形状 变量 看 做 是 可 分 类 的 。 同 样 ， 颜 色 值 也 应 该 被 视 为 仅 有 两 个 可 能 取 值 的 类 别 变 量 的 数值 编码 。 

除了 x、y、shape 和 color， 这 个 数据 集中 还 有 其 他 变量 ,以便 你 在 实验 中 尝试 不 同 的 分 类 
方案 。 这 些 变量 的 描述 详 见 表 13-6。 


表 13-6 donut.csv 数 据 文件 中 的 字段 


变量 描述 可 能 值 
x 一 个 点 的 x 坐标 从 0 到 1 的 数值 
水 一 个 点 的 ?坐标 从 0 到 1 的 数值 
shape 一 个 点 的 形状 从 21 到 25 的 形状 代码 
color 点 是 否 被 填充 1 表示 “ 空 ”，2 表 示 “ 填 充 ” 
K 仅 用 x 和 7 进行 k-means 聚 类 所 得 到 的 ID 从 1 到 10 的 整 型 徐 ID 
k0 用 x、y 和 color 进 行 k-means 聚 类 所 得 到 的 ID 从 1 到 10 的 整 型 徐 ID 
xx x 坐标 的 平方 从 0 到 1 的 数值 
xy x 和 y 坐 标的 积 从 0 到 1 的 数值 
yy 坐标 的 平方 从 0 到 1 的 数值 
到 原点 (0,0) 的 距离 从 0 到 V2 的 数值 
到 点 (1,0) 的 距离 从 0 到 V2 的 数值 
c 到 点 (0.5,0.5) 的 距离 从 0 到 ( V2 )/2 的 数值 
bias 一 个 常量 1 


3. 使 用 Mahout 构 建 模型 
你 可 以 利用 x 和 ?特征 构建 一 个 检测 color 字 段 的 模型 ， 使 用 如 下 命令 即 可 : 


$s bin/mahout trainlogistic --input donut.csy \ 
-O00teut eedel \ 
--target color --categories 2 \ 
-Dredictors x y --types numeric \ 
--fteatures 20 --passes 100 --rate 50 


CoOlor ~ -0.157*Intercept Term + -0.678*x + -0.416*y 
Intercept Term -0.15655 
x -0.67841 
vy -0.41587 


这 条 命令 指定 输入 为 资源 中 名 为 donut.csv 的 数据 集 ， 结 采 模 型 存放 在 文件 .model 中 ， 目 标 变 
量 在 名 为 color 的 字段 中 且 含 有 两 个 可 能 值 。 命 令 也 指定 了 算法 应 该 将 变量 x 和 y 用 作 预 测 变 量 ， 
二 者 都 是 数值 型 变量 。 余 下 的 选项 指定 了 学 习 算法 的 内 部 参数 。 
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注意 你 所 看 到 的 实际 输出 可 能 只 有 一 位 有 效 数字 与 此 相同 ， 因 为 该 Logistic 回 归 训 练 算法 采用 
了 某 种 随机 化 机 制 。 


trainlogistic 程 序 所 有 的 命令 行 选项 参见 表 13-7。 


表 13-7 trainlogistic 程 序 的 命令 行 选 项 
选 项 说 。 明 
“i ek 产生 较 少 的 状态 和 进度 输出 
--input <file-or-resource> 使 用 指定 的 文件 或 资源 作为 输入 


--output <file-for-model> 将 模型 存 人 指定 的 文件 


--target <variable> 使 用 指定 的 变量 作为 目标 

categories <n> 指定 目标 变量 的 类 别 个 数 

--predictors <V1> ... <vn> 指定 预测 变量 的 名 称 

--types <tl> ... <tm> 给 出 了 预测 变量 的 类 型 列表 。 各 个 类 型 必须 是 数值 、 单 词 或 文本 。 类 型 可 以 缩写 
为 它们 的 第 一 个 字母 。 如 来 给 出 的 类 型 太 少 ,就 重复 使 用 最 后 一 个 。 用 单词 表示 
类 别 变 量 

--passes 旨 定 训练 过 程 中 对 和 数据 的 复核 次 数 。 小 规模 的 输入 文件 可 能 需要 检验 几 十 过 ， 
很 大 的 输入 文件 则 可 能 不 需要 完全 检查 

--1lambda 控制 算法 在 最 终 模 型 中 对 变量 的 抑制 程度 。 值 为 0 表示 不 作为 。 典 型 的 值 在 0.000 
01 或 更 小 的 数量 级 上 

--rate 设 定 初始 学 习 率 。 如 果 你 有 大 量 数据 或 设 定 了 很 高 的 复核 次 数 , 可 以 把 它 设 大 一 
点 ， 因 为 它 会 随 看 数据 核查 的 过 程 逐 渐 衰 减 

--noBias 消除 模型 中 的 截 距 项 (一 个 内 建 的 常数 预测 变量 ) 。 有 时 这 会 产生 不 错 的 效果 ， 
但 通常 并 非 如 此 ， 因 为 SGD 学 习 算法 一 般 能 够 在 必要 时 消除 截 距 项 

--features 设 定 用 于 构建 模型 的 内 部 特征 向 量 大 小 。 在 这 里 较 大 的 值 会 比较 合适 ,尤其 是 处 
理 文 本 型 输入 数据 时 


13.5.4 ”改进 填充 颜色 分 类 器 的 性 能 


现在 你 已 经 训练 好 了 第 一 个 分 类 模型 , 下面 来 确定 它 在 估计 填充 颜色 的 任务 中 性 能 如 何 。 
个 评估 过 程 不 仅仅 是 为 项 目 评 分 ， 更 为 评估 和 改善 分 类 器 以 达到 最 佳 性 能 提供 了 一 条 途径 。 

1. 模型 评估 

注意 ,这 个 问题 中 填充 点 是 完全 被 未 填充 点 包围 的 , 这 意味 着 不 可 能 用 一 个 简单 模型 对 点 进 
行 准确 分 类 ， 比 如 SGD 算 法 使 用 x 和 ?坐标 生成 的 模型 。 实 际 上 ， 这 个 模型 底层 的 线性 方程 只 能 产 
生 一 个 负 值 ， 在 Logistic 回 归 的 上 下 文中 ， 保 证 不 会 产生 大 于 0.$ 的 分 数 。 我 们 将 会 看 到 ， 这 第 一 
个 模型 不 是 很 有 效 。 

模型 训练 好 之 后 ,你 可 以 再 次 在 训练 数据 上 运行 模型 ， 以 评估 其 表现 ( 尽管 我 们 知道 它 的 表 
现 不 会 太 好 )。 


% 
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S bin/mahout runlogistic --input donut.csv --model ./model \ 
--auc --confusion 

AUC = 0.57 

confusion: [127.0, 13.0]j, 10.0, 0.0]] 


这 里 的 输出 包括 两 个 我 们 特别 感 兴趣 的 值 。 首 先是 ACU 值 (Area Under the Curve， 即 曲线 以 
下 的 面积 ， 广泛 用 于 评估 模型 质量 )， 在 这 里 为 0.57。ACU 的 范围 可 以 是 从 0 ( 对 应 于 一 个 完全 错 
误 的 模型 ) 到 0.5( 对 应 于 一 个 随机 猜测 的 模型 )， 再 到 1.0〈 对 应 一 个 完全 正确 的 模型 )。 此 处 ， 
0.57 这 个 值 意味 着 我 们 的 模型 比 随 机 猜测 强 不 了 多 少 。 

要 理解 为 什么 这 个 模型 的 表现 如 此 糟糕 , 你 可 以 从 混淆 矩阵 ( confusion matrix ) 中 找到 线索 。 
混 消 和 矩阵 是 一 个 表 ， 它 比较 实际 结 采 与 期 讲 结 果 。 所 有 得 分 低 于 默认 国 值 0.5 的 样本 ， 都 被 划 到 
未 填充 类 别 中 。 这 使 得 分 类 需 在 2/3 的 情况 下 是 正确 的 (40 次 里 有 27 次 正确 )， 但 仅 在 未 填充 数据 
上 正确 。 虽 然 模型 大 部 分 时 候 都 能 得 到 正确 答案 , 但 这 就 好 像 一 个 停止 的 钟 一 天 总 能 有 两 次 指 问 
正确 的 时 间 一 样 。 


注意 第 15 章 会 对 混淆 矩阵 及 其 他 度量 工具 做 详细 介绍 。 


runlogistic 命 令 接受 的 选项 参见 表 13-8。 


表 13-8 ”runlogistic 程 序 的 命令 行 选项 


选 项 说 。 明 
二 产生 较 少 的 状态 和 进度 输出 
Te 读 入 数据 后 打印 模型 在 输入 数据 上 的 AUC 分 值 
--Scores 打印 每 个 输入 样本 的 目标 变量 值 和 分 数 
--Confusion 打印 某 个 国 值 的 混 消 矩阵 (参见 --thresholad ) 
--input <input> 使 用 指定 的 文件 或 资源 作为 输入 
--model <model> 从 指定 文件 中 读 入 模型 


2. 构建 一 个 更 有 趣 的 模型 
如 果 使 用 额外 的 变量 进行 训练 ,你 会 得 到 更 有 趣 的 结果 。 例如 ， 下面 的 命令 允许 在 建立 模型 
时 使 用 x 和 y， 外 加 a、b 和 c 来 训练 模型 : 


$s bin/mahout trainlogistic --input donut.csv --output model \ 
--target color --categories 2 \ 
-predictors x yy abrc --types numeric An 
--features 20 --passes 100 --rate S50 


COlor ~ 7.07*Intercept Term + 0.58*x + 2.32*y + 0.58*a + -1.37*b + -25.06*c 
Intercept Term 7.06759 
a U.D8123 
-1].36893 
=70 5403534 
0.58123 
2.31879 


MK mnD 这 
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注意 ， 这 个 模型 给 了 c 变 量 很 大 的 权重 ， 而 且 鹤 距 项 也 较 大 。 如 朱 你 忽略 其 他 变量 ( 虽然 这 
么 做 不 是 非常 合适 ， 但 截 距 项 和 c 在 这 里 占有 绝对 的 主导 权 )， 模 型 线性 部 分 的 输出 会 在 c=0 时 取 
到 最 大 值 11.5, 一 旦 c>0 .3 时 它 就 会 迅速 降 为 负数 。 根 据 我 们 对 这 个 问题 的 了 解 ， 这 在 几何 上 具 
有 显著 的 意义 。 仅 仅 基 于 这 一 考量 ,就 意味 春 这 个 模型 与 前 面 那个 仅仅 基于 x 和 y、 像 保 止 的 钟 一 
样 的 模型 不 一 样 了 。 


Logistic 回归 

Logistic 回归 是 一 种 分 类 模型 ， 其 中 的 预测 变量 的 线性 组 合 被 传递 给 一 个 软 限 制 函数 ， 将 
输出 限制 在 从 0 到 1 的 范围 内 。Logistic 回归 与 其 他 一 些 模型 密切 相关 ， 如 感知 机 ( 软 限 制 被 
替换 为 一 个 硬性 限制 )、 神 经 网 络 (使 用 多 层次 的 线性 组 合 和 软 限制 ) 和 朴素 贝 叶 斯 算法 (在 
独立 假设 的 前 提 下 ,根据 特征 频率 严格 限制 线性 权重 ),Logistic 回归 不 能 分 离 所 有 可 能 的 类 别 ， 
但 处 理 维度 很 高 的 问题 时 , 你 可 以 将 一 些 预 测 变量 进行 组 合 引 入 新 的 变量 , 这 都 不 是 什么 大 问 
题 。Logistic 回归 在 数学 上 的 简洁 性 使 算法 的 学 习 快 速 有 效 。 


3. 再 次 测试 
在 训练 数据 上 运行 这 个 改进 后 的 模型 ， 你 将 得 到 一 个 与 前 面 模型 大 不 一 样 的 结 
$s bin/mahout runlogistic --input donut.csv --model model 
AUC confusion 
AUC = 1.00 


confusion: [[27.0, 0.0], [0.0, 13.0]|] 
entropy: [[-0.1, -1.5], [-4.0, -0.2]] 


现在 AUC 值 已 经 非常 完美 ， 达 到 了 1， 而 且 你 可 以 从 混 清 矩阵 中 看 到 ， 模 型 已 经 能 够 正确 分 
类 所 有 的 训练 样本 。 

4. 用 新 数据 进行 测试 

你 可 以 在 资源 中 的 附加 数据 集 donut-test.csv 上 测试 同样 的 模型 。 因 为 这 部 分 数据 并 未 用 于 训 
练 模型 ， 这 可 能 给 我 们 市 来 一 些 尺 言 。 


$s bin/mahout runlogistic --input donut-test.csv --model model \ 
--auc --cConfusion 

AUC = 0.97 

confusion: {[{[24.0, 2.0]}, [3.0,， 11.0]] 

entropy: [[-0.2, -2.8], {-4.1, -0.1]j] 


在 这 个 留存 数据 集 上 ， 你 可 以 看 到 AUC 值 降 为 0.97， 但 仍然 很 不 错 。 混 清和 矩阵 显示 40 个 新 样 
本 中 有 5 个 分 类 错误 ， 模 型 把 ?2 个 未 填充 点 标记 为 填充 〈 误 报 )， 3 个 填充 点 标记 为 未 填充 ( 汤 报 )。 
显然 ,使 用 额外 的 变量 ,特别 是 c， 大 大 改善 了 模型 ,但 这 里 仍然 存在 一 些 问题 。 图 13-10 展 示 了 
所 发 生 的 事情 。 

注意 图 13-10 中 接近 委 形 的 部 的 大 实心 加 。 这 个 圆 很 接近 训练 集中 的 未 填充 闫 色 的 样本 ,但 
没有 与 训练 集中 的 任何 填充 颜色 的 样本 相 邻 。 因 为 学 习 算法 不 知道 正确 区 域 的 形状 如 此 奇怪 , 模 
型 几乎 不 可 能 (在 这 个 样本 上 ) 得 到 正确 答案 。 


图 13-10 ”在 新 数据 集 上 试用 分 类 带 。 原 始 数据 显示 为 浅 色 阴影 ， 新 数据 显示 为 填充 或 
未 填充 。 放大 的 符号 为 模型 分 类 错误 的 点 。 攻 形 轮廓 显示 了 我 们 实际 用 于 生 
成 研 面 圈 数 据 集 的 区 域 


5. 党 试 其 他 模型 
ev er ed ， 来 做 一 些 人 额外 的 试验 。 例 如 ， 下 面 的 代码 将 x、y、a 和 b 包 合 
到 预测 变量 集中 ， 但 排除 


$s bin/mahout trainlogistic --input aqQonut .csv --output model \ 
-target color --categories 2 \ 
--predictors x y ab --types n --features 20 \ 


-Dasses 100 --rate S50 


Color ~ 4.634*Intercept Term + -2.834*x + 5.558*Yy + -2.834*a + -6.000*b 
Intercept Term 4.63396 


a -2.83439 
GB =.99971 
X 2.83439 
到 

$s bin/mahout runlogistic --input donut-test.csv --model model 

--BauUc -Confusion 
AUC = 0.91 
confusion: [[27.0, 13.0], [0.0, 0.0]] 
entroOBy: ||=0.3; = 日 如 |=s3 = 了 | 


A 


尽管 这 次 模型 并 没有 用 上 最 合适 的 变量 ,但 在 留存 数据 集 上 的 性 能 只 是 轻微 下 降 。 这 表明 ， 
c 所 携带 的 信息 也 存在 于 x、y、a 和 b 中 。 

你 也 可 以 在 学 习 模 型 的 参数 上 多 做 一 些 试验 。 这 些 实验 是 第 15 章 中 讨论 的 评估 过 程 的 
开端 。 
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13.6 小结 


通过 开发 上 一 节 中 的 示例 程序 , 你 已 经 用 上 了 本 章 中 关于 分 类 前 两 个 阶段 的 知识 :训练 醒 型 ， 
以 及 评估 模型 并 调 优 性 能 。 如 果 这 是 一 个 真正 的 系统 , 你 的 模型 现在 应 该 可 以 进入 第 三 个 阶段 进 
行 分 类 了 : 将 其 部 普 到 真实 的 生产 环境 中 。 现 在 ,你 应 该 已 经 熟悉 了 分 类 的 基本 术语 ， 而 且 对 分 
类 的 概念 以 及 工作 方式 有 了 比较 扎实 的 理解 。 

记 住 ， 构 建成 功 的 分 类 天 有 一 点 很 重要 : 用 人 简单、 具体 的 词 项 仔细 地 陈述 问题 ， 从 而 能 够 在 
一 个 预定 义 的 类 别 〈 即 目标 变量 ) 表 中 返回 答案 。 注 意 ， 输 入 数据 中 并 非 所 有 特征 都 同等 有 效 ， 
你 必须 慎重 选择 用 作 预 测 变量 的 特征 , 而 且 需 要 答 试 一 些 组 合 以 便 确 认 哪 些 有 助 于 提高 分 类 表 的 
性 能 。 记 住 ， 实 践 很 重要 。 

竺 握 了 这 些 基本 思想 ， 回 过 头 来 想 想 品 酒 的 例 于 。 对 于 基于 机 俘 的 分 类 从， 其 目标 应 该 是 玫 
助 你 按时 回 家 吃 晚 饭 ， 而 不 是 对 生活 中 那些 美好 事物 做 出 微妙 的 审 关 判断 。 

继续 学 习 后 面 的 第 14 章 ~ 第 17 章 ， 你 会 发 现 Mahout 为 海量 数据 分 类 系统 提供 了 强 有 力 的 工 
具 ， 特 别 是 当 数据 集 规模 超过 100 万 样本 时 。 第 14 章 重点 讨论 如 何 从 输入 中 提取 特征 以 供 学 习 算 
法 使 用 ， 这 是 后 面 评 佑 、 调 优 训练 好 的 分 类 带 以 在 生产 环境 中 部 署 分 类 冀 的 第 一 步 。 


训练 分 类 天 


本 章 内 容 

口 提取 文本 中 的 特征 

口 转换 特征 为 Mahout 所 用 
口 训练 两 个 Mahout 分 类 各 
口 选择 Mahout 学 习 算 法 


本 章 探讨 分 类 的 第 一 阶段 : 模型 训练 。 开 发 分 类 需 是 个 动态 过 程 ， 要 求 你 创造 性 地 思考 出 描 
述 数据 特征 的 最 佳 方式 , 并 考虑 在 训练 模型 所 选用 的 学 习 算 法 中 如 何 使 用 这 些 数据 特征 。 某 些 数 
据 很 容易 就 可 以 为 分 类 所 用 ， 而 有 些 则 会 给 分 类 工作 带 来 很 大 挑战 ,让 你 同时 感受 到 诅 丧 、 有 赵 
和 物 有 所 值 。 

在 本 章 中 , 你 将 学 会 挑选 并 有 效 地 提取 各 种 特征 以 构建 Mahout 分 类 融 。 特征 提取 所 涉及 的 工 
作 比 第 13 章 介绍 的 简化 步骤 多 得 多 。 我 们 将 详细 探讨 特征 提取 , 包括 如 何 对 原始 数据 进行 预 处 理 ， 
将 其 变 成 可 分 类 数据 , 以 及 如 何 将 可 分 类 数据 变 成 适用 于 Mahout 分 类 算法 的 回 量 。 我 们 将 以 一 个 
计算 党 销 问 题 为 例 ， 演 示 如 何 从 数据 库 中 提取 训练 数据 。 

一 旦 理解 如 何 为 分 类 准备 数据 之 后 ,我 们 将 在 14.4 节 给 出 一 个 示例 , 该 示例 利用 Mahout 中 的 
随机 梯度 下 降 (SGD ) 算法 在 一 个 标准 数据 集 20 Newsgroups 上 构建 分 类 器 。 

在 14.5$ 节 ， 我 们 将 介绍 Mahout 分 类 中 的 各 种 学 习 算 法 的 特点 ， 这 有 助 于 了 解 如 何 根据 具体 项 
目的 特点 选择 最 合适 的 算法 ,在 设计 和 训练 分 类 右 时 ,提取 特征 和 选择 算法 这 两 项 工作 密切 相关 。 
为 了 培养 对 选择 中 不 同 做 法 的 直观 认识 , 我 们 给 出 第 二 个 逐步 介绍 的 例子 , 该 例子 使 用 另 一 种 学 
习 算法 一 一 朴素 贝 叶 斯 算法 一 一 对 相同 的 数据 进行 处 理 。 

下 面 我 们 先 解 释 一 下 如 何 处 理 训练 样本 中 的 数据 。 


14.1 提取 特征 以 构建 分 类 器 


把 数据 变 成 分 类 天 可 用 的 形式 是 一 个 复杂 的 过 程 , 通常 也 很 耗 时 。 我 们 在 这 一 广 会 大 笃 介 绍 
下 其 中 所 涉及 的 工作 。 第 13 半 中 的 图 13-2 展 示 了 如 何 训 练 和 使 用 分 类 模型 ， 而 图 14-1 是 图 13-2 
的 一 个 简化 视图 。 这 里 只 需要 一 步 ， 就 可 以 从 训练 样本 到 达 分 类 模型 的 训练 算法 。 当 然 ， 现 实情 
况 会 更 加 复兴 。 图 14-1 中 还 展示 了 第 13 革 没 提 到 的 重要 细 市 。 
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在 图 13-2 中 ， 训 练 数据 到 训练 算法 只 用 了 一 步 。 实 际 上 ， 原 始 数据 必须 经 过 搜集 和 预 处 理 ， 
然后 才能 变 成 可 分 类 的 训练 数据 。 图 14-1 中 的 训练 样本 是 可 分 类 数据 ,我 们 会 在 本 章 讨 论 从 原始 
数据 到 可 分 类 数据 的 处 理 过 程 ， 并 在 第 15 音 和 第 16 草 给 出 进一步 的 细节 。 

原始 数据 经 过 预 处 理 变 为 可 分 类 形式 之 后 , 我 们 需要 进行 几 步 操作 来 选择 预测 变量 和 目标 变 
量 ， 并 将 它们 编码 为 回 量 ， 即 Mahout 分 类 天 所 要 求 的 输入 形式 。 回 想 下 第 13 章 的 内 容 ， 特 征 中 可 
以 用 作 预 测 变 量 的 值 有 4 种 : 


口 连续 型 ; 
口 类 别 型 ; 
口 单词 型 
口 文本 型 。 
p> 
/ AR 
| 带 有 类 别 标记 的 训练 算法 
到 数 训练 样本 提取 预测 
信 、 机 处 理 变量 和 目 


= \ 标 变 量 / 
« NH 


第 13 章 中 省 略 的 细节 
图 14-1 网 13-2 的 扩展 部 分 。 原 始 数据 必须 经 过 这 些 处 理 ， 然 后 才 可 以 交付 给 训练 算法 


总 体 来 说 ,这 里 对 预测 变量 的 描述 是 正确 的 , 但 它 忽 略 了 一 个 重要 事实 ， 即 无 论 是 在 训练 算 
法 可 以 读 取 的 内 存 还 是 文件 格式 中 , 将 这 些 值 交付 给 训练 分 类 条 的 任何 算法 时 , 都 必须 以 数字 加 
量 的 形式 表示 。 

与 图 14-1 中 经 过 价 化 的 序列 相 比 ， 图 14-2 中 多 了 很 多 细 簿 。 为 了 将 原始 数据 变 成 训练 算法 所 
要 求 的 输入 丫 量 ,要 对 其 进行 一 系列 的 变换 。 这 些 变 换 可 以 分 为 两 个 阶段 : 预 人 处理 ,产生 用 作 训 
练 样本 的 可 分 类 数据 ; 将 可 分 类 数据 转换 成 回 量 。 

连接 , 合 


原始 | 并， 转换 带 目标 值 的 
数据 训练 样本 


训练 算法 


图 14-2” 回 量 是 分 类 算法 要 求 的 输入 格式 。 为 了 将 数据 编码 为 问 量 ， 搜 索 原 始 数据 时 必 
须要 以 可 分 类 的 单条 记录 形式 来 表示 数据 ， 以 为 解析 和 向 量化 过 程 做 好 准备 
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如 图 14-2 所 示 ， 为 训练 算法 准备 数据 主要 包括 两 步 。 

(1) 原始 数据 的 预 处 理 ”经 过 重新 组 织 ， 原 始 数 据 变 成 市 有 相同 字段 的 记录 。 为 了 能 够 用 于 
分 类 ， 这 些 字段 可 以 是 4 种 类 型 : 连续 型 、 类 别 型 、 单 词 型 和 文本 型 。 

(2) 将 数据 转换 为 向 量 用 自 定义 代码 或 者 Lucene 分 析 器 、Mahout 向 量 编 码 屁 之 类 的 工具 对 
可 分 类 数据 进行 解析 和 癌 量 化 。 有 些 Mahout 分 类 右上 自己 也 包含 癌 量 化 代码 。 

上 述 的 第 二 步 又 可 以 分 为 两 个 阶段 一 一 词 条 化 和 癌 量 化 。 对 于 连续 变量 而 言 , 解析 工作 可 能 
微不足道 ， 但 对 于 其 他 类 型 的 变量 ， 比 如 类 别 型 、 单 词 型 或 文本 型 变量 ， 可 能 要 涉及 疝 量化 
操作 。 

本 章 的 后 续 草 节 会 详细 讨论 这 两 步 处 理 。 


14.2 原始 数据 的 预 处 理 


在 特征 提取 的 第 一 阶段 ， 我 们 要 重新 认识 一 下 数据 ， 找 出 可 以 用 作 预 测 变 量 的 特征 。 首 先 ， 
根据 分 类 目标 选择 日 标 变 量 , 然后 挑选 或 吻 除 特征 ， 以 得 到 值得 一 试 的 组 合 。 这 一 步 没 有 既定 法 
则 ， 全 和 攒 经 验 进行 猜测 ， 学 习 本 章 示 例 之 后 ， 你 应 该 能 慢 慢 积累 出 目 己 的 经 验 。 

本 方 人 简要 概述 了 数据 的 预 处 理 过 程 , 包括 搜集 数据 或 重新 将 数据 组 织 成 单条 记录 , 并 从 原始 
数据 中 提炼 出 第 二 层 合 义 〈 比 如 将 邮政 编码 转换 为 三 数字 编码 或 用 生日 来 确定 年 龄 )。 在 本 章 的 
示例 当中 , 预 处 理 并 不 是 主要 部 分 ,这 是 因为 这 里 用 的 数据 集 基 本 上 已 经 做 好 数据 提取 了 。 而 在 
第 16 蔓 和 第 17 草 中 的 示例 中 ， 预 处 理 扮演 春 更 重要 的 角色 。 


14.2.1 原始 数据 的 转换 


在 找 出 要 答 试 的 特征 之 后 ,必须 先 把 它们 转换 成 可 分 类 的 形式 。 这 个 转换 涉及 将 数据 重新 安 
排 单 一 位 置 上 并 将 其 转换 成 合适 的 具有 一 致 性 的 形式 。 


注意 可 分 类 数据 由 具有 相同 字段 的 记录 组 成 ， 字 段 的 数据 类 型 为 下 面 4 种 之 一 : 连续 型 、 类 别 
型 、 单 词 型 或 文本 型 。 每 条 记录 都 包含 一 个 训练 样本 的 完全 非 规范 化 的 描述 


乍 一 看 , 这 一 步 好 像 不 需要 做 就 已 经 完成 。 如 果 数 据 看 起 来 像 单词 , 那 特征 肯定 就 是 单词 型 ， 
对 不 对 ? 如 果 数 据 看 起 来 像 数 字 , 那 特征 肯定 是 连续 型 ， 对 吧 ? 但 我 们 在 第 13 章 已 经 讲 过 ,第 一 
印象 可 能 会 误导 你 。 比 如 邮政 编码 ， 乍 看 像 数字 , 但 实际 上 是 一 个 类 别 ， 是 一 个 预先 定义 的 类 别 
的 标签 。 包 合 单 词 的 东西 可 能 是 单词 型 ， 或 者 最 好 看 成 类 别 型 或 文本 型 。 用 户 ID 或 产品 ID 看 起 来 
可 能 像 数 值 、 类 别 或 单词 型 数据 , 但 更 常见 的 做 法 为 了 支持 它们 所 指 癌 的 用 户 或 产品 的 特性 对 它 
们 进行 非 规 范 化 ( denormalization ) 处 理 。 

下 面 的 示例 来 自 计算 营销 ， 我 们 可 以 将 其 作为 为 分 类 准备 原始 数据 的 练习 。 
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14.2.2 一 个 计算 营销 的 例子 

假设 你 要 构建 一 个 分 类 模型 ， 以 确定 用 户 是 否 会 购买 你 向 他 们 提供 的 某 种 产品 。 这 算 不 上 推 
荐 系统 ， 因 为 它 是 根据 用 户 和 产品 的 特性 进行 分 类 ， 而 不 是 根据 相似 用 户 的 集体 行为 (collective 
behavior ) 进行 分 类 。 

这 个 例子 中 的 数据 库 中 有 几 个 数据 库 表 ， 如 图 14-3 所 示 。 这 些 表 是 高 度 简化 的 零售 系统 的 经 
典 数 据 表 。 这 里 有 用 来 表示 用 户 和 产品 的 表 ， 有 一 个 表 记 录 展 示 或 提供 产品 给 用 户 的 时 间 , 还 有 
一 个 表 记 录 展 示 产 品 给 用 户 导致 的 购买 行为 。 这 些 数据 目前 还 不 能 作为 分 类 器 的 训练 或 测试 数 
据 ， 因 为 它们 分 散在 几 个 表 中 。 


Offer 


O<<| userld 
productld 
price 

OQ discount 


time 
() 
O< Purchase 
offerld 
CO-<s time 


图 14-3 ”包含 不 同 数据 类 型 的 产品 销售 示例 中 的 表 结 构 。 因 为 任何 表 中 都 没有 分 类 上 需 
的 训练 样本 记录 ， 所 以 原始 数据 的 这 种 组 织 形式 不 能 直接 用 作 训 练 数据 

图 14-3 中 展示 的 营销 项 目 有 很 多 种 数据 类 型 。 用 户 有 人 口 统计 数据 ， 比 如 生日 和 性 别 ; 产品 
有 型 号 和 颜色 。 癌 用 户 展示 的 产品 数据 记录 在 offer 表 中 ， 跟 offer 相 关联 的 产品 购买 记录 放 在 
purchase 表 中 

图 14-4 中 是 将 这 些 数 据 变 成 分 类 各 训练 数据 的 一 种 可 能 方式 。 对 于 of fer 表 中 的 每 条 记录 ， 
应 该 都 有 一 条 记录 与 之 对 应 ， 但 要 注意 是 如 何 用 产品 和 用 户 的 ID 来 联结 prodquct 和 user 表 的 。 
在 这 个 过 程 中 , 用 户 的 生日 表示 为 年 龄 。 我 们 用 了 一 个 外 联结 来 推导 产品 展示 到 产品 购买 之 间 的 
时 间 延 迟 ， 并 用 一 个 标志 来 表明 是 否 有 购买 行为 发 生 。 

为 了 将 表 中 数据 表示 为 网 14-4 中 所 示 的 可 用 形式 ,我们 需要 把 它们 集中 到 一 起 重新 组 织 。， 
完成 这 个 任务 ， 可 以 像 下 面 这 样 使 用 SQL 查询 : 


User 


birthDate 
gender 


Product 
typeld 
colorld 


select 
now{()-birthDate as age, gender, 
typeId, colorIid, price, discount, offerTime, 
ifnull {purchase.time, 0, purchase.time - offer.time) as purchaseDelay, 


ifnull {purchase.time, 0, 1) as purchased 
from 


offer 


join user using 


joOin product using 
left outer JjJoin purchase using 


‘userId)} 
‘(productId) 


(offerId) :; 
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目标 变量 
age gender typeld colorId price discount offerTime se 
来 自 user 来 自 item ee 来 自 purchase 和 offer 


图 14-4 “为 获得 可 分 类 数据 ， 构 建 训 练 样本 的 数据 来 目 不 同 的 数据 源 ， 通 过 非 规范 化 形 
成 单条 记录 , 来 描述 实际 发 生 的 情况 。 这 里 还 对 一 些 变量 做 了 转换 ， 比 如 用 年 龄 
表示 生日 ， 用 延 开 表示 购买 时 间 


该 查询 对 存储 在 不 同 数据 表 中 的 数据 进行 了 非 规范 化 处 理 , 将 所 有 必要 数据 整合 到 一 起 形成 
记录 。 在 这 个 例子 中 ，offer 表 是 主 表 ， 并 有 晶 userId、productId 以 及 offerId 上 的 外 键 本 质 
使 得 上 述 查 询 对 offer 表 中 的 每 条 记录 都 恰好 产生 一 条 对 应 记录 。 需 要 注意 的 是 跟 purchase 表 
的 联结 是 外 联结 ,这 样 就 可 以 允许 包含 purchase.time 的 ifnull 表 达 式 在 没有 任何 购买 行为 时 
产生 0 值 。 


注意 有 时 年 龄 更 适合 分 类 ， 而 有 时 生日 却 更 适合 。 比 如 说 ， 在 汽车 事故 的 保险 数据 中 ， 用 年 
龄 做 变量 会 更 好 ， 因 为 与 客户 所 属 的 时 代 相 比 ， 汽 车 事故 跟 客 户 年 龄 段 的 关系 更 大 。 而 
在 购买 音乐 的 数据 中 ， 生 日 可 能 更 有 意义 ， 因 为 人 们 通常 会 保持 自己 早期 对 音乐 的 偏好 ， 
其 对 音乐 的 品味 通常 能 折射 出 他 们 的 时 代 特 征 。 


上 述 查 询 语 名 产生 的 记录 是 可 分 类 数据 ,可 以 用 于 训练 算法 的 解析 和 癌 量 化 处 理 过 程 。 癌 量 
化 处 理 可 以 由 你 编码 完成 , 或 者 把 这 些 数据 变 成 Mahout 分 类 副 可 以 接受 的 格式 , 因为 这 些 分 类 带 
通 第 有 日 己 的 解析 和 疝 量 化 代码 ,可 以 帮 你 完成 数据 的 解析 和 癌 量 化 处 理 。 后 续 的 内 容 和 示例 将 
重点 讨论 如 何 对 解析 后 的 可 分 类 数据 做 向 量化 处 理 。 


14.3 ”将 可 分 类 效 据 转换 为 癌 量 


在 Mahout 中 ，Vector(〈 回 量 ) 是 一 种 保存 浮 点 数字 的 数据 类 型 ， 并 且 这 些 浮 点 值 用 整 型 做 
索引 。 本 节 会 告诉 你 如 何 将 数据 编码 为 Vvector, 解释 什么 是 特征 散 列 (feature hashing )， 并 演示 
Mahout API 如 何 进 行 特 征 散 列 。 我 们 还 会 看 一 下 如 何 对 不 同类 型 的 变量 值 进行 编码 。 

前 面 有 关 聚 类 的 各 草 中 已 经 介绍 过 了 了 Vector。 很 多 种 分 类 需 , 特别 是 Mahout 中 用 的 分 类 关 ， 
基本 上 都 是 以 线性 代数 为 基础 ， 因 此 要 求 训 练 数据 以 Vector 形式 输入 。 


14.3.1 用 向 量 表 示 数 据 


怎么 用 vector 表 示 可 分 类 数据 呢 ? 表 14-1 中 总 结 了 几 种 办 法 。 
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表 14-1 将 可 分 类 数据 编码 为 向 量 的 办 法 


方 法 优 点 代 价 用 途 
每 个 单词 、 类 别 或 连续 值 ”没有 冲突 , 易于 实 ”需要 扫描 两 次 [一 次 设置 分 量 ， “将 Lucene 索 引导 出 为 Vector 用 
用 一 个 vector 分 量 现 逆 处 理 一 次 设置 值 ], 并 且 向 量 的 长 度 ”于 聚 类 
可 能 不 同 
将 vector 隐 式 表 示 为 词 ”扫描 一 次 ， 没 冲 突 。 难以 使 用 线性 代数 基 元 ,难以 ”用 在 朴素 贝 叶 斯 中 
人 iN (bags of words) 表示 连续 值 ， 并 且 必 须 将 数据 
格式 化 为 特殊 的 非 向 量 形式 
用 特征 散 列 扫描 一 次 ， 回 量 大 ”有 特征 冲突 ， 结 果 模 型 解释 起 ”在 onlineLogisticRegression 
小 提前 固定 ， 并 适 “来 可 能 需要 点 技巧 和 其 他 SGD 学 习 算 法 中 
用 于 线性 代数 基 元 


Mahout 中 不 同 分 类 需 使 用 了 表 14-1 中 的 各 种 办 法 。 我 们 来 看 一 下 如 何 将 单词 型 、 文 本 型 和 类 
别 型 值 编码 为 向 量 。 

1. 每 个 词 一 个 分 量 

将 可 分 类 数据 编码 为 Vector 的 一 种 办 法 是 过 历 两 次 训练 数据 : 一 次 确定 必需 的 Vector 大 
小 ， 并 构建 一 个 词典 记录 每 个 特征 放 在 Vector 中 的 什么 位 置 ) 一 次 转换 数据 。 这 种 方式 可 以 用 
简单 的 表示 来 编码 训练 和 测试 样本 : 每 个 连续 值 、 每 个 类 别 型 、 单 词 型 和 文本 型 数据 中 的 独立 单 
词 或 类 别 在 回 量 表示 中 都 会 被 分 配 唯一 的 位 置 。 

这 种 方式 明显 的 缺点 在 于 要 扫 摘 两 次 训练 数据 ， 所 以 可 能 导致 分 类 融 的 训练 计算 成 本 加 倍 ， 
对 于 特别 大 的 效 据 集 来 说 这 真是 个 问题 。 

Mahout 中 大 多 数 聚 类 算法 用 的 都 是 这 种 两 次 扫描 的 办 法 。 

2. 将 向 量 作为 词 袋 

另外 一 种 办 法 是 包含 特征 名 称 ， 或 是 名 称 加 上 类 别 型 、 单 词 型 或 文本 型 变量 值 ， 而 不 是 
Vector 对 象 。 这 一 方法 主要 是 用 在 朴素 由 叶 斯 和 补充 朴 系 贝 叶 斯 等 Mahout 分 类 天 中 。 

这 种 办 法 的 优势 是 可 以 不 用 词典 , 但 这 也 意味 着 很 难 利用 Mahout 的 线性 代数 功能 , 这 些 功能 
要 求 涉 及 的 vector 回 量 长 度 已 知 并 具有 一 致 性 。 

3. 特征 散 列 

基于 SGD 的 分 类 天 无 需 预 先 确定 回 量 的 大 小 ， 只 要 简单 挑 一 个 合理 的 大 小 ， 并 把 训练 数 
据 预 置 进 那 个 大 小 的 同 量 中 。 这 种 办 法 称 为 特征 散 列 。 预 置 时 ， 我 们 通过 连续 变量 变量 名 的 
散 列 ， 或 者 类 别 型 、 文 本 型 或 单词 型 数据 的 变量 名 和 类 别名 或 单词 本 时 的 散 列 ， 来 选择 一 个 
或 多 个 位 置 。 

这 种 采用 特征 散 列 的 办 法 有 明显 优势 ,需要 的 内 存 更 少 , 也 可 以 少 扫描 一 次 训练 数据 ,但 对 
问 量 进 行 逆 向 工程 来 确定 映射 到 回 量 位 置 的 原始 特征 也 更 加 困难 。 这 是 因为 多 个 特征 可 能 会 添加 
散 列 到 同一 个 位 置 。 当 癌 量 较 大 ,或 者 每 个 特征 对 应 多 个 位 置 时 ， 这 对 于 精确 性 不 是 什么 问题 ， 
但 可 能 会 为 理解 分 类 和 右 造 成 困难 。 
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14.3.2 ”用 Mahout API 做 特征 散 列 


我 们 在 这 一 节 中 看 一 下 如 何 用 Mahout API 做 特征 散 列 。 我 们 详细 介绍 如 何 对 连续 型 类别 型 、 
单词 型 和 文本 型 特征 编码 。 我 们 还 解释 特征 冲突 的 概念 以 及 它们 对 分 类 融 的 影 啊 。 

1. 对 连续 型 特征 编码 

连续 值 是 最 容易 编码 的 数据 。 连续 变量 的 值 可 以 下 接 加 到 为 存储 它们 而 分 配 的 一 个 或 多 个 位 
置 上 。 这 些 位 置 是 由 特征 的 名 称 确定 的 。 

Mahout 对 连续 值 的 寺 征 散 攻 | 编 公 是 通过 Cont ijnuousValueEncoder 完 成 的 6 默认 情况 下 
ContinuousValueEncoder 只 会 更 新 问 量 中 的 一 个 位 置 , 但 你 可 以 用 setProbes () 方 法 指定 更 
新 的 位 置 数目 。 要 编码 变量 的 值 ， 需 要 一 个 vector ， 此 时 可 以 通过 new RandomAccessSparse 
Vector (lmp.getNumFeatures () ) 建立 一 个 新 问 量 。 然后 ， 我 们 用 encoder.addToVector 
(value，vector) 对 值 编码 。 注 意 ，Mahout 假 定 被 编码 的 值 是 字符 串 。 如 果 被 编码 的 值 是 
double, 一 个 nul 1 就 会 被 传 给 String 值 人 并 且 该 值 会 被 看 成 权重 Bencoder .addToVector 
(null, value, vector)。 

2. 对 类 别 型 和 单词 型 特征 编码 

对 具有 n 种 不 同 值 的 类 别 特征 编码 ， 我们 可 以 在 n 个 癌 量 位 置 中 保存 一 个 值 1， 标 明 变 量 取 
哪个 值 。 为 了 降低 元 余 性 ， 也 可 能 会 用 n-1 个 位 置 ， 然 后 编码 第 n 个 类 别 的 1 值 根本 就 不 存 (全 
是 0 )。 

特征 散 列 编码 与 此 类 似 ， 但 对 特征 名 和 值 进行 散 列 后 才 得 到 位 置 然后 分 散 到 整个 特征 回 量 
中 。 此 外 ,每 个 类 别 痢 可 以 与 几 个 位 置 关联。 特征 散 列 的 为 外 一 个 好 处 就 是 可 以 处 理 未 知 的 和 无 
限 的 单词 型 变量 。 

要 用 特征 散 列 法 对 类 别 型 或 单词 型 变量 编码 , 需要 创建 一 个 WordVvalueEncoder。 这 个 编码 
妖 的 用 法 和 continuousValueEncoder 是 一 样 的 , 不 过 它 默 认 探 测 数 是 2, 而 有 旦 被 更 新 的 位 置 是 
根据 变量 值 及 名 称 而 相应 变化 的 。 有 两 种 编码 硕 : AdaptiveWordVvalueEncoder 在 运行 过 程 中 
构建 词典 ， 以 估计 单词 的 出 现 频率 ， 所 以 能 给 罕见 词 赋 了 予 较 大 的 权重 ; StaticWordValue 
Encodqezr 用 已 经 建 好 的 词典 ， 如 宁 没 有 词典 ， 就 给 所 有 单词 赋予 相同 的 权重 。 

好 的 单词 权重 会 对 某 些 学 习 算 法 有 极 大 的 帮助 ， 但 也 有 一 些 ， 比 如 后 面 讲 到 的 
Onl ineLogisticRegression 类 ， 所 有 单词 都 用 相同 的 权重 也 没 多 大 影 啊 。 

用 相同 的 权重 给 单词 编码 类 似 于 给 连续 值 编码 。 下 面 是 对 连续 变量 编码 的 示例 代码 : 


FeatureVectorEncoder encoder = 


new StaticWordValueFEncoder ("variable-name'").: 


for (DataRecorgd ex: trainingData) f{ 


Vector Vv = new RandomAccessSparseVector(10000}); 
String word = ex.get ("variable-name").; 
encoder.addToVvector (word, Vv); 
“7/ 使 用 向 量 

} 


这 段 代 码 中 构造 了 一 个 staticworadvalueEncoder， 并 将 用 来 确定 随机 数 生 成 硕 种 子 的 名 


14.3 ”将 可 分 类 数据 转换 为 向 量 229 


称 传 给 它 。 在 内 部 , 这 个 变量 的 名 称 和 要 编码 的 单词 被 组 合 起 来 , 来 得 到 编码 操作 要 修改 的 位 置 ， 
实现 对 这 些 值 的 编码 。 

回 量 的 大 小 要 通过 实现 来 确定 。 比 较 大 的 回 量 会 消耗 更 多 的 内 存 ， 并 且 训 练 过 程 也 会 
而 比较 小 的 癌 量 最 终 会 导致 太 多 的 特征 神 突 ， 以 致 于 学 习 算 法 无 法 弥补 。 

3. 对 文本 型 特征 编码 

对 文本 型 特征 进行 编码 和 对 单词 型 特征 进行 编码 类 似 ， 只 不 过 文本 中 的 单词 很 多 。 实 际 上 ， 
这 里 的 例子 只 是 简单 地 把 文本 中 单词 的 回 量 表示 县 加 起 来 作为 文本 的 回 量 。 这 种 方法 非常 合适 ， 
但 更 细致 的 做 法 是 先 对 单词 进行 计数 , 然后 产生 每 个 单词 癌 量 的 加 权 总 和 , 这 样 得 到 的 结果 更 好 。 
我 们 会 在 本 曹 后续 内 容 中 讲解 第 二 种 做 法 。 


~ 


变 慢 。 


提示 文本 型 数据 值 是 单词 的 有 序 序列 ， 但 通常 没 必要 把 单词 在 文本 中 的 顺序 搞 得 太 精 确 。 只 
要 把 单词 在 文本 中 出 现 的 次 数 搞 清 楚 就 够 了 ， 不 用 考虑 顺序 。 话 虽 这 么 说 ， 但 通常 文本 
的 最 佳 向 量 并 不 是 以 单词 出 现 次 数 为 权重 的 单词 向 量 总 和 ， 而 是 以 单词 出 现 次 数 的 某 种 
函数 为 权重 。 最 常用 的 权重 函数 是 平方 根 、 对 数 ， 或 不 管 单词 出 现 的 频率 ， 只 要 出 现 就 
赋予 相同 的 权重 。 代码 清 单 14-1 中 的 例子 出 于 对 简单 性 的 考虑 用 了 线性 权重 , 但 对 于 大 多 
数 应 用 程序 而 言 ， 以 数值 的 对 数 作 为 权重 通常 是 更 好 的 起 点 。 


代码 清单 14-1 展 示 了 如 何 对 文本 中 的 所 有 单词 进行 编码 ,然后 产生 每 个 单词 编码 的 线性 权重 
之 和 ， 从 而 将 文本 编码 为 器 量 。 这 是 用 staticWordValueEncoder 实 现 的 ， 并 且 还 要 有 办 法 将 
文本 分 解 或 分 析 成 单词 。Mahout 提 供 了 编码 兹 ，Lucene 提 供 了 分 析 闹 。 


代码 清单 14-1 文本 的 词 条 化 和 癌 量 化 


FeatureVectorEncoder encoder = new StaticWordVvalueEncoder ("text"):; 
Analyzer analyzer = 


new StandardAnalyzer (Version.LUCENE 31) ， 1 将 文本 分 割 为 单词 


StringReader in = new StringReader('"text to magically vectorize").; 
TokenStream ts = analyzer.tokenSstream("body", 1in), 
TermaAttribute termaAtt = ts.addAttribute (TermaAttribute.class}): 


Vector Vi = new RandomAccessSsparseVector(100); 二 一 一 编码 进 大 小 为 100 的 向 量 
while (ts.incrementToken{(})}) { 

char[] termBuffer = termAtt.termBuffer'(),; 

int termLen = termAtt.termLength!{(),; 


String w = new String (termBuffer, 0, termLen); 


encoder.addToVector (w, 1, v1); < 将 单词 Ww 加 到 向 量 v 中 
} 


System.out.printf ("Ss\n", new SequentialAccessSparseVector (v1)).; 
这 段 代 码 会 产生 回 量 的 可 输出 形式 : 
{8:1.0,21:1.0,67:1.0,77:1.0,87:1.0,88:1.01 


这 个 输出 的 图 形 化 形式 如 图 14-5 所 示 。 
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在 癌 量 中 的 位 置 


6 text 2 的 编码 ， Vectorlze 1 的 编码 


器 量 中 的 非 0 元 素 


图 14-$ 对 “text to magically vectorize” 编 码 的 回 量 。 这 个 同 量 中 有 6 个 非 0 值 ， 同 量 大 小 为 
100。 等 于 0 的 值 没 有 保存 ,因此 也 没 像 Lucene 标 准 分 析 需 产生 的 结果 那样 显示 出 来 


如 图 14-5 所 示 ， 位 置 8 和 21 是 单词 text 的 编码 ，77 和 88 是 vectorize 的 编码 ，67 和 88 是 magically 
的 编码 。 单 词 to 被 Lucene 标 准 分 析 妖 去 挥 了 。 这 一 过 程 的 最 终结 果 是 个 稀 玖 回 量 ， 其 中 的 0 值 根 
本 不 会 保存 。 

4. 特征 冲突 

数据 的 散 列 特征 表示 可 能 会 把 不 同 的 变量 或 单词 存在 相同 的 位 置 ， 从 而 引发 冲突 。 比 如 说 ， 
如 有 果 你 在 前 面 的 例子 中 用 了 一 个 长 度 为 20， 而 不 是 100 的 同 量 ， 那 对 “text to magically encode” 
编码 的 结果 值 可 能 是 这 样 的 : 

I 

在 这 个 向 量 中 ， 位 置 7 和 8 的 值 不 青 是 1， 变 成 了 2,， 像 图 14-5 中 显示 的 所 有 非 0 单元 一 样 。 这 
个 回 量 如 图 14-6 所 示 。 


在 回 量 中 的 位 置 


7 8 
= Dp 
2 
/ 


"text" "magically" "Vectorize" 
器 量 中 的 非 0 元 素 


图 14-6” 当 疝 量 的 长 度 不 再 是 100， 变 成 20 时 ， 冲 突出 现 了 。 单 词 text 和 magically 在 位 
置 8 上 冲突 了 ，magically 和 vectorize 在 位 置 7 上 冲突 了 。 这 些 冲 突 使 结果 向 量 更 
难 解释 ， 但 通常 它们 不 会 影响 分 类 的 准确 性 


处 理 特征 冲突 以 避免 对 性 能 造成 影响 非常 简单 。 在 图 14-6 显 示 的 同 量 中 ， 单 词 text 锌 编码 在 
位 置 1 和 8, magically 在 位 置 7 和 8, vectorize 在 位 置 7 和 17。 也 就 是 说 , text 和 masically 共 享 了 位 置 8， 
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vectorize 和 magically 共 享 位 置 7。 所 以 位 置 7 和 8 的 值 是 2， 而 其 他 非 0 值 都 是 1。 因 为 每 个 单词 都 被 
赋予 了 两 个 位 置 ， 所 以 学 习 算 法 能 通过 学 习 弥 补 这 些 冲 突 。 

在 这 个 例子 中 ,学 习 算 法 可 以 弥补 这 些 冲突 ， 因 为 从 单词 到 癌 量 的 转换 是 可 逆 的 。 通常 不 太 
可 能 每 个 单词 都 有 单一 位 置 ， 因 为 同 量 的 维度 几乎 总 是 比 文本 中 的 词汇 量 小 。 尽 管 有 多 个 位 置 ， 
这 种 癌 量 化 技术 通常 都 很 省 用 ， 其 原因 跟 布 隆 过 小 右 能 用 的 原因 一 样 。 

两 个 单词 之 间 在 哪里 出 现 冲突 对 于 分 类 希 来 说 有 很 大 的 差别 , 这 两 个 单词 不 太 可 能 在 别 的 位 
置 上 也 发 生 冲 突 ， 也 不 太 可 能 和 第 三 个 单词 发 生 冲 突 。 因 此 ,通常 这 种 癌 量 化 方式 很 好 用 , 并且 
如 有 果 问 量 长 度 选 得 足够 大 , 不 会 有 明显 的 准确 率 损失 。 找 出 确切 的 回 量 长 度 要 用 到 第 16 草 中 的 评 
估 技 术 ， 通 过 评估 可 以 进行 实证 性 验证 。 

接 下 来 ,我们 会 用 SGD Mahout 分 类 算法 在 一 些 真实 数据 上 尝试 这 些 办 法 。( 14.5 厄 会 讨论 不 
同 的 Mahout 分 类 算法 ，14.6 扩 会 用 为 一 种 Mahout 算 法 对 相同 的 数据 集 进行 分 类 。 ) 


14.4 ”用 SGD 对 20 Newsgroups 数据 集 进行 分 类 


我 们 在 这 一 节 用 SGD 学 习 算 法 为 20 Newsgroups 数 据 集 构建 一 个 分 类 模型 。 在 这 个 例子 中 ， 
我 们 会 对 数据 进行 预览 ， 并 做 初步 的 分 析 ,， 分 析 哪 些 是 最 常见 的 文件 涉 , 通过 解析 和 词 条 化 处 理 
将 数据 转换 为 器 量 ， 并 为 20 Newsgroups 数 据 集 项 目 编 写 训练 代码 。 


注意 20 Newsgroups 数 据 集 是 机 器 字 习 研究 中 常用 的 标准 数据 集 。 这 些 数据 是 20 世 纪 90 年 代 旱 
期 20 个 Usenet 新 闻 组 上 几 个 月 消息 的 副本 。 


这 个 例子 重点 强调 特征 提取 ,并 且 集 中 关注 特征 提取 的 第 二 阶段 ， 即 向 量化 处 理 。 之 所 以 用 
20 Newsgroups 数 据 集 ， 这 是 因为 对 这 些 数据 做 特征 提取 的 第 一 阶段 ， 即 将 原始 数据 转换 为 可 分 
类 数据 的 预 处 理 过 程 相对 简单 一 一 创建 该 数据 集 的 研究 人 员 已 经 完成 了 大 部 分 工作 。 


14.4.1 开始 : 数据 集 预 览 


准备 数据 集 的 第 一 步 就 是 检查 数据 , 并 确定 哪些 特征 可 能 有 助 于 将 样本 分 到 选 定 目标 变量 的 
类 别 中 。( 在 这 里 ， 目 标 变 量 就 是 20 个 新 闻 组 中 的 每 一 个 。) 

首先 , 从 http://people.csail.mit.edu/jrennie/20Newsgroups/20news-bydate.tar.gz 人 外 下载 20 Newsgroups 
数据 集 。 根 据 日 期 ， 该 版 本 数据 集 被 划分 成 训练 数据 和 测试 数据 ， 并 保留 了 所 有 数据 的 文件 头 
( header line )。 在 真实 场景 中 ， 分 类 右 一 般 都 用 来 处 理 新 数据 ， 而 非 旧 数据 ， 按 日 期 划分 的 好 处 
就 在 于 它 更 贴近 真实 场景 。 

如 果 你 查看 训练 数据 目录 下 的 某 个 文件 ， 比 如 20newsbydate-train/sci.crypt/15524， 应 该 能 看 
到 下 面 这 种 内 容 : 


From: rdippold@aualcomm.com (Ron "Asbestos" Dippold) 
Subject: Re: text of White House announcement and Q&AsS 
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Originator: rdippold@aqualcom.gqualcom. com 
NNntp-Posting-Host: aqualcom.gqualcomm.com 
Organization: Qualcomm, JInc., San Diego, CA 
Lines: 12 


ted@nmsu.edu {Ted Dunning) writes: 

>nobody seems to have noticed that the clipper chip *must* have been 
>under development for considerably longer than the 3 months that 
>clinton has been president. this is not something that choosing 


20 Newsgroups 数 据 集 是 由 消息 组 成 的 ， 每 个 文件 一 条 。 每 个 文件 都 从 文件 头 开 始 ， 指 明了 
消息 是 由 谁 发 送 的 ,有 多 长 ， 用 的 什么 软件 ,以 及 消息 的 主题 是 什么 之 类 的 信息 。 接 看 是 一 个 衬 
日 行 ， 然 后 是 无 格式 文本 的 消息 体 。 

这 种 数据 的 预测 特征 或 者 在 文件 头 中 , 或 者 在 消息 体 中 。 所 以 先 检 查 所 有 文档 中 文件 头 的 不 
同 字 段 出 现 的 次 数 。 这 可 以 帮 我 们 确定 哪些 是 最 第 用 因此 很 可 能 影响 许多 文档 的 分 类 结果 的 
字段 。 

因为 这 些 文档 格式 简单 ， 像 下 面 这 种 bash 脚 本 就 能 统计 出 各 种 文件 头 的 出 现 次 数 : 

#1/bin/bash 

export LC ALL='C' 


for file ln 20news-bydate-train/*/* 
do 


sed -了 -e '/^S$S/,Sd' -ee 's/:.*//' -e '/^[[:space:]]l/d' sfile 
done | sort | uniq -c | sort -nr 


这 个 脚本 会 扫描 训练 数据 集中 的 所 有 文件 ， 发 现 第 一 个 空 日 行 后 就 把 后 面 的 所 有 文本 删除 ， 
剩余 行 中 冒号 后 面 的 内 容 也 会 删 掉 。 此 外 , 文件 头 中 以 空格 开头 接续 上 一 行内 容 的 文本 行 也 会 删 
掉 。 然 后 ， 它 对 sedq 中 剩 下 的 输出 进行 排序 、 计 数 ， 然 后 再 根据 计数 的 结果 按 降序 进行 排序 。 

训练 样本 中 文件 头 的 计数 汇总 如 表 14-2 所 示 。 标 记 为 “.…” 的 那 一 行 表 明 ， 我 们 跳 过 了 中 间 
行 ， 和 直接 展 示 列 表 最 后 那些 称奇 吝 怪 的 例 于 。 “动作 ”列表 明 根 据 文 件 头 的 评 在 价值 可 能 要 执行 
哪些 操作 。 可 选 的 操作 是 在 解析 过 程 中 抛弃 没 价值 的 文件 头 (丢弃 )， 留 下 可 能 有 用 的 (保留 ) 
或 者 尝试 价值 不 太 明确 的 (尝试 ? )。 作 用 疝 不 明确 的 数据 很 值得 一 试 ， 因 为 最 终 可 能 会 证 明 它 
非常 有 价值 。 也 许 我 们 应 该 把 它们 标记 为 “一 定 要 试 一 下 ! 。 


表 14-2 20 Newsgroups 文 章 中 最 常见 的 文件 头 。 不 过 ， 其 中 也 有 一 些 不 太 常 见 的 


文 件 头 计 数 备 注 动 作 
标题 11314 ”文本 保留 
源 自 11314 ”消息 的 发 送 者 保留 
行 数 11311 ”消息 的 行 数 保留 
组 织 10 841 ” 跟 发 送 者 相关 尝试 ? 
分 发 2533 潜在 的 目标 泄漏 尝试 ? 
Nntp 发 帖 主机 2453 跟 发 送 者 相关 尝试 ? 


NNTP 发 帖 主 机 2311 跟 上 面 那个 一 样 ， 只 是 变 成 了 大 写 党 试 ， 
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( 续 ) 
文 件 头 计 数 备 注 动 作 

回复 1720 可 能 是 个 线索 ,不 太 和 常见， 可 以 试验 一 下 尝试 ? 
关键 词 926 内 容 描述 保留 
文章 -LD. 673 太 具 体 了 丢弃 
X-Newsreader 588 发 送 者 用 的 软件 丢弃 
总 结 391 跟 “关键 词 ”类 似 保留 
始 发 291 跟 “ 源 自 ” 类 似 ,但 不 太 津 见 丢弃 
在 回复 中 219 很 可 能 只 是 个 ID ， 很 少见 丢弃 
新 闻 软 件 164 发 送 者 用 的 软件 丢弃 
过 期 时 间 113 具体 日 期 ， 很 少见 丢弃 
在 回复 中 101 很 可 能 只 是 个 ID ， 很 少见 丢弃 
致 80 潜在 的 目标 泄漏 ， 很 少见 丢弃 
X-Disclaimer 64 噪声 ， 很 少见 丢弃 
免责 声明 56 因为 跟 新 闻 组 的 偏好 程度 有 关 ， 可 以 作为 潜在 的 线索 ,很 少见 丢弃 
天 1 奇怪 的 文件 头 丢弃 
Orginization 1 文件 头 中 出 现 拼写 错误 很 奇怪 丢弃 
Oganization 1 好 吧 ， 可 能 不 是 丢弃 
Oanization 1 丢弃 
Moon-Phase ( 月 相 ) 1 也 是 ， 有 个 帖子 中 真有 这 个 ; 开源 就 是 这 么 精彩 12! 


很 多 文件 头 可 能 都 没什么 价值 ， 也 有 很 多 出 现 的 次 数 太 少 ， 所 以 基本 没什么 影响 。 表 14-2 把 
Subjects 、From 、Lines 、keywords 和 Summary 作 为 可 能 感 兴趣 的 特征 文件 头 。 它 们 经 稼 出现， 而 
日 看 起 来 很 可 能 跟 文档 的 内 容 相 关 。 其 中 比较 奇怪 的 是 Lines， 实 际 上 它 是 和 内 容 相 关 的 ， 因 为 
有 些 新 闻 组 可 能 习惯 于 发 比较 长 的 文档 ， 而 有 些 则 一 般 发 比较 短 的 。 


提示 ”数据 的 初步 分 析 对 于 分 类 能 否 成 功 至 关 重 要 。 有 时 候 这 种 分 析 很 有 意思 ,会 有 彩蛋 出 现 ， 
比如 表 14-2 中 的 Moon-Phase 文 件 头 。 这 些 惊喜 对 于 构建 分 类 器 可 能 也 很 重要 , 因为 它们 经 
常 能 揭示 数据 中 的 问题 ， 或 让 你 产生 很 关键 的 见解 ， 从 而 简化 分 类 问题 。 要 尽早 可 视 化 ， 
并 且 要 经 常 可 视 化 。 


注意 ，20 Newsgroups 示 例 中 的 数据 是 精心 准备 的 ， 所 以 很 容易 用 于 测试 分 类 需 。 因 此 ， 它 
有 些 理想 化 了 。 因 为 所 有 数据 都 在 一 起 , 并 且 所 有 明显 的 目标 泄漏 都 已 经 被 去 择 了 ， 所 以 你 不 需 
要 对 它们 进行 预 处 理 ， 可 以 直接 进行 文本 分 析 。 
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14.4.2” 20 Newsgroups 数 据 特征 的 解析 和 词 条 化 


为 学 习 算 法 准备 数据 的 第 二 阶段 是 将 可 分 类 数据 〈 四 种 可 能 类 型 ) 转换 为 问 量 。 在 20 
Newsgroups 数 据 集中 ， 除 了 Lines， 所 有 数据 字段 都 是 文本 型 或 单词 型 ， 其 格式 看 起 来 用 标准 的 
Lucene 词 条 化 工具 就 可 以 轻松 完成 词 条 化 。Lines 字 段 是 数字 , 也 能 用 Lucene 词 条 化 工具 解析 。 看 
起 来 这 个 字段 对 于 区 分 某 些 新 闻 组 非常 有 价值 ， 因 为 talk.politics.* 小 组 每 条 消息 的 平均 行 数 约 为 
60， 而 misc.forsale 中 文档 的 平均 行 数 只 有 25 。 


14.4.3 20 Newsgroups 数 据 的 训练 代码 
| 现在 可 以 建 模型 了 。 为 了 简单 起 见 ， 我 们 在 这 个 例子 中 要 用 前 面 对 点 进行 分 类 时 用 过 的 
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No 15 OnlineLogisticRegression 算 法 。 但 这 一 次 是 要 从 Java 代 码 中 运行 分 类 名 ， 而 不 是 用 命令 行 ， 
所 以 能 看 到 提取 特征 和 癌 量 化 的 过 程 。 
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Logistic 回 归 分 类 器 一 览 

Logistic 回 归 分 类 器 将 输入 值 进行 线性 组 合 后 用 Logistic 函 数 1/(1+e 汶 将 值 压缩 到 (0, 1) 区 间 
之 内 。Logistic 回 归 模 型 的 输出 一 般 都 可 以 解读 为 概率 估算 值 。 此 外 ， 即 便 特 征 向 量 的 维度 很 
高 ， 线 性 组 合 中 所 用 的 权重 也 可 以 通过 增 量 方式 高 效 计算 。 因 此 Logistic 回 归 经 常用 于 可 扩展 
的 串 行 学 习 中 。Logistic 回 归 接 受 的 特征 必须 为 数字 形式 ， 所 以 文本 、 单 词 和 类 别 型 变量 值 必 
须 编 码 成 向 量 格式 。 


1. 建立 向 量 编码 器 
首先 需要 有 对 象 把 文本 和 行 数 转 成 回 量 值 ， 代 码 如 下 所 未 : 


Map<String, Set<JInteger>> traceDictionary = 

new TreeMap<String, Set<Integer>>!{).， 
FeatureVectorEncoder encoder = new StaticWordValueEncoder ("body").: 
encoder.setProbes(2); 


encoder.setTraceDictionary (traceDictionary):; 


FeatureVectorFEncoder bias = new ConstantValuerncoder ("Intercept'").; 
bias.setTraceDictionary (traceDictionary),; 

FeatureVectorFncoder lines = new ConstantValueFncoder ("Lines'"),; 
lJines.setTraceDictionary (traceDictionary).: 

Dictionary newsGroups = new Dictionary!().; 

Analyzer analyzer = new StandardAnalyzer (Version.LUCENE 311)1 1 


在 这 段 代码 中 ,3 类 数据 分 别 由 3 种 编码 絮 处 理 。 第 一 个 编码 髓 encoder 用 来 对 帖子 标题 和 主 
体内 容 中 的 文本 编码 。 第 二 个 编码 器 bias 提 供 了 一 个 常数 偏 移 量 ， 模 型 可 以 用 它 于 对 每 类 的 平 
均 频率 进行 编码 。 第 三 个 是 1ines， 用 来 对 消息 的 行 数 编码 。 

因为 onlineLogisticRegression 类 在 训练 过 程 中 希望 得 到 目标 变量 的 整 型 ID， 所 以 还 需 
要 用 一 部 词典 把 目标 变量 (新闻 组 ) 转 成 整 型 值 ， 该 词典 就 是 newsGroups 对 象 。 

2. 配置 学 习 算法 

可 以 像 下 面 这 样 配 置 Logistic 回 归 学 习 算 法 : 
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OnlineLogisticRegression learningAlgorithm = 
new OnlineLogisticRegression ! 
20, FEATURES, new Li1()) 
.alpha(l} .stepoffset {1000) 
.decayExponent (0.9) 
.Jambda (3.0e-5) 
.learningRate (20); 


学 习 算法 构造 函数 接受 的 参数 包括 : 指定 的 目标 变量 类 别 的 个 数 、 特 征 向 量 的 大 小 及 正则 化 
项 ( regularizer )。 此 外 ， 学 习 算 法 中 还 有 一 些 配 置 方法 。 其 中 ，alpha 、dqecayExponent 和 
stepOffset 方 法 可 以 指定 学 习 率 及 衰减 率 和 衰减 方式 。lambda 方 法 指定 正则 化 的 权重 ， 
learningRate 方 法 指定 初始 学 习 率 。 
在 生产 模型 中 , 学 习 算 法 需要 运行 成 百 上 干 次 才能 找到 比较 理想 的 取 值 。 为 了 确定 比较 合理 
的 取 值 ， 我 们 在 这 里 做 了 几 个 快速 试验 。 
3. 访问 数据 文件 
接着 需 要 得 到 所 有 训练 数据 文件 的 清单 ， 代 人 码 如 下 所 示 : 
List<File> files = new ArrayList<File>!{),. 
for (File newsgroup : base.l]istFijes()) { 
newsCGroups.intern(newsgroup.getName {()); 


files.addAll (Arrays.asListinewsgroup.1listFiles()})})}); 
} 


Collections.shuffle(files).; 
System.out.printf("%®d training files\n", files.size(})}); 


这 段 代 码 把 所 有 新 闻 组 的 名 字 都 放 到 词典 中 。 像 这 样 预定 义 的 词典 内 容 , 可 以 确保 词典 中 的 
条 目 是 以 稳定 并 且 可 识别 的 顺序 存放 的 。 这 有 助 于 在 多 次 训练 过 程 运行 结果 之 间 进 行 比 较 。 

4. 数据 词 条 化 前 的 预备 工作 

这 些 文件 中 的 大 部 分 数据 都 是 文本 型 ， 因 此 可 以 使 用 Lucene 来 做 词 条 化 处 理 。 使 用 Lucene 会 
比 基 于 空格 或 标点 符号 的 简单 分 割 要 好 , 这 是 因为 Lucene 的 StandardAnalyzer 类 能 够 正确 地 处 
理 一 些 特殊 词 条 ， 如 电子 邮件 地 址 。 

你 也 需要 多 个 变量 来 累积 运行 过 程 中 的 平均 值 ， 这 些 变量 包括 平均 对 数 似 然 、 正 确 率 、 文 档 
行 数 和 处 理 的 文档 数目 等 : 


double averageLL = 0.0; 

double averageCorrect = 0.0; 
double averageLineCount = 0.0; 
TE 上 三 加 


double step = 0.0; 
int[] bumps = new int[]{1, 2, 5}; 
double lineCount.; 


这 些 变 量 有 助 于 度量 等 习 算 法 的 进度 和 性 能 。 

5. 读 取 数 据 并 进行 词 条 化 处 理 

经 过 前 面 那些 准备 工作 ， 现 在 你 已 经 可 以 处 理 数据 了 。 因 为 在 线 Logistic 回 归 算 法 学 得 很 快 ， 
所 以 我 们 只 需要 扫描 一 过 数据 。 只 扫描 一 次 对 进度 评估 也 有 好 处 ,因为 在 将 文档 用 作 训 练 数 据 之 
前 ， 可 以 用 当前 状态 的 分 类 带 逐 一 对 它们 进行 测试 。 
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在 真正 的 学 习 过 程 中 ， 文 档 是 以 随机 顺序 处 理 的 ， 所 以 来 自 不 同 新 闻 组 的 样本 会 混在 一 起 。 
将 训练 数据 以 随机 顺序 交付 给 分 类 絮 ， 可 以 使 0n1ineLogisticRegression 算 法 更 快 收敛 到 某 
个 结果 。 有 具体 做 法 如 下 所 示 : 


,3 RE 所 NI 
代码 清单 14-2 解析 数据 
for {File file : files) 1{ 
BufferedReader reader = new BufferedReader (new FileReader (file}}:; 
String ng = file.getParentrFile{} .getName (}.; 
0 识别 新 闻 组 


int actual = newsGroups.intern{ng): 
Multiset<String> words = ConcurrentHashMultiset.create!(}. 


String line = reader.readLine!{): 
while (line 1= null && line.length() > 0) { 9 检查 行 数 文件 头 
if {line.startsWith{"Lines:")}) { 


String count = Iterables.get {onColon.split(line), 1) 
try { 
lineCount = Integer.parseInt (count).; 


averageLineCount += (lineCount aVverageLineCount) 
/ Math.min(k + 1, 1000}).，: 
} catch (NumberFormatException e) { 


lineCount = averageLineCount; 
} 
} 


boolean countHeader = { 


ling, starteWith{("rrom") || line.startsWith("Subijeets | | 
line.startswith('"Keywords:")|| line.startsWith{({"Summary:")); 
do 1{ 
StringReader in = new StringReader (line).:; 
ift (countHeader) { 9 计算 文件 头 中 单词 的 数量 
countWords (analyzZer, words, in); 


} 
line = reader.readLine!(): 
} while (line.startsWith(" ")); 
} 9 计算 内 容 主 体 中 单词 的 数量 


countWords (analyzer, words, reader).; 


reader.closel().， 


} 

用 文件 名 判断 每 篇 文档 所 属 的 新 闻 组 @。 文件 关中 有 一 行 给 出 了 文档 的 行 数 ， 而 行 数 可 以 编 
码 为 特征 人 @。 然 后， 解析 文件 涉 合 和 文档 的 主体 @， 我 们 需要 对 找到 的 单词 计数 。 这 里 可 以 用 
Google Guava 类 库 中 的 multi-set 来 做 计数 工作 。 这 些 文档 中 至 少 有 一 篇 的 行 数 是 假 的 ， 在 这 种 情 
况 下 ， 为 保险 起 见 ， 将 行 数 设 置 为 总 体 的 均值 是 一 个 比较 合理 的 做 法 。 

每 篇 文档 都 是 以 文件 头 开 始 的 ,文件 头 的 每 一 行 都 是 由 文件 头 名 、 分 号 、 内 容 组 成 ， 有 些 文 
件 头 可 能 不 止 一 行 , 接续 的 内 容 换行 后 前 面 会 有 一 个 空格 。 行 数 以 及 选 定 文 件 头 行 的 单词 数 要 作 
为 特征 处 理 。 在 文件 头 处 理 完 后 ， 文 档 的 主体 要 经 过 Lucene 分 析 需 (analyzer ) 的 处 理 。 

6. 数据 的 向 量化 

得 到 文档 中 的 数据 之 后 , 你 可 以 将 所 有 特征 收集 到 一 个 特征 癌 量 中 ， 以 供 分 类 融 的 学 习 算 法 
使 用 。 下 面 是 完成 这 一 任务 的 代码 : 


~ 
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Vector Vv = new RandomAccessSparseVector (FEATURES). 

bias.addToVvector (null, 1, Vv): 

lines.addToVector (nulli, lineCount / 30, v)}: 

logLines.addToVvector (null, Math.log(lineCount + 1), vVv).， 

for {String word : words.elementSet(}} { 
encoder.addToVector{word, Math.log(1i + words.count (word}}, Vv): 


} 

首先 ， 对 bias ( 常 量 ) 进行 编码 ， 它 的 值 始 终 是 1。 学 习 算法 可 以 利用 该 特征 作为 国 值 。 如 
果 没 有 这 样 一 个 bias， 有 些 问题 就 没 办 法 用 Logistic 回 归 人 解决 。 

行 数 同时 编码 为 原始 形式 和 对 数 形式 ， 除 以 30 可 以 把 行 长 度 放 入 和 其 他 输入 几乎 一 样 的 区 
间 ， 以 便 加 快 学 习 进 程 。 

文档 主体 的 编码 与 此 类 似 , 但 文档 中 每 个 单词 的 权重 依据 单词 在 文档 中 出 现 频率 的 对 数 来 确 
定 ， 而 不 是 直接 使 用 频率 。 这 样 做 是 因为 单词 在 单 篇 文档 中 出 现 多 次 的 频率 , 要 比 单词 出 现 的 预 
期 整体 频率 要 高 。 正 是 基于 这 种 考虑 ， 我 们 使 用 了 频率 的 对 数 。 

7. 评估 当前 进度 

此 时 ， 你 应 该 拥有 了 一 个 可 以 交付 给 学 习 算 法 的 回 量 。 直 到 现在 ， 我 们 仍然 可 以 认为 文档 
中 的 数据 没有 完全 被 提炼 出 来 。 因 些 ， 可 能 你 还 可 以 用 这 些 数据 得 到 一 些 关 于 分 类 带 准 确 度 的 
反馈 ， 甚 至 有 望 做 出 改善 。 这 里 有 两 个 可 以 衡量 准确 性 的 指标 : 对 数 似 然 值 和 正确 分 类 的 平均 
比例 。 

对 数 似 然 值 最 大 为 0， 在 对 20 种 候选 答案 进行 随机 猜测 时 ， 其 结果 应 该 接近 -3。 即 便 分 类 天 
给 出 错误 答案 , 但 只 要 正确 答案 的 排名 靠 前 ， 对 数 似 然 也 会 给 一 些 分 值 。 而 即使 分 类 顺 给 出 正确 
答案 , 但 如 果 有 一 个 错误 答案 的 得 分 几乎 和 该 正确 答案 一 样 高 ， 对 数 似 然 就 会 减 掉 一 些 分 值 。 对 
数 似 然 值 这 种 但 求 近 似 不 求 完全 命中 的 特性 , 使 得 它 特别 适合 作为 性 能 测试 的 指标 。 但 跟 没 有 技 
术 背 景 的 同事 解释 对 数 似 然 也 实在 让 人 头疼 , 所 以 我 们 还 是 需要 更 简单 的 指标 ， 即 得 出 正确 答案 
的 平均 比例 。 

我 们 可 以 用 Welford 算 法 来 计算 性 能 指标 的 均值 ， 这 种 算法 的 好 处 在 于 总 能 得 到 当前 均值 的 
估 值 。 我 们 这 里 用 的 是 Welford 算 法 的 变 体 ， 因 此 只 有 在 处 理 不 足 200 个 样本 之 前 ， 才 会 用 直接 平 
均值 。 而 在 那 之 后 用 的 是 指数 平均 值 , 这 样 最 终 得 到 的 进度 性 能 指标 就 可 以 忽略 掉 分 类 需 早 期 还 
没 学 会 任何 东西 时 给 出 的 结果 。 

下 面 这 段 代码 就 是 计算 对 数 似 然 什 和 正确 平均 百分比 的 : 


double mu 


= Math.min(k + 1, 200);， 
double 11 = learningAlgorithm.logLikelihood(actual, v); 
AaVverdageLL = 


averageLL + (11 AaverageLL) / mu; 


Vector pp = new DenseVector{(20); 


learningAlgorithm.classifyFull (pp, v).: 


int estimated = p.maxVvaluelIndex(); 


int correct = (estimated == actual? 1 : 0),， 
averageCorrect = averageCorrect + (Correct - averageCorrect) / mu; 


在 这 段 代 码 中 ， 模 型 需要 得 出 一 些 性 能 指标 。 它 计算 对 数 似 然 值 的 均值 并 放 在 变量 
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averageLL 中 。 然 后 ， 它 用 比例 最 高 的 新 闻 组 确定 变量 estimated， 并 与 正确 的 值 进行 比较 。 
然后 ， 对 比较 结果 取 均 值 ， 得 出 正确 结果 的 平均 百分比 ， 作为 变量 averageCcorrect 的 值 。 

8. 用 编码 数据 训练 SGD 模 型 

从 当前 训练 样本 中 得 到 进度 信息 后 , 我 们 可 以 把 它 传 给 学 习 算法 以 更 新 模型 。 如 果 学 习 算法 
多 次 扫描 数据 ,那么 最 好 将 测试 样本 用 于 进度 监控 ,将 训练 样本 只 用 于 训练 ， 而 不 是 像 这 里 一 样 
将 两 种 样本 都 用 于 训练 和 进度 监控 。 

在 示例 代码 中 ， 我 们 施展 一 些 “ 花 式 步 法 ”， 以 逐步 增长 的 时 间 间 隔 来 提供 进度 反馈 。 这 样 
在 运行 过 程 中 就 可 以 尽早 提供 反馈 ， 又 不 至 于 因为 程序 运行 时 间 太 长 让 你 淹没 在 数据 洪流 之 中 。 
下 面 的 代码 给 出 了 这 些 逐 步 增长 的 步 长 的 计算 过 程 : 


learningAlgorithm.train(actual, v): 


区 十 十 ; 

int bump = bumps[ (int) Math.floor(lstep) % bumps.lengthl]: 

nt Scale = (int) Math.pow(10, Math.floor(step / bumps.length))}); 
if (k % (bump * scale) == 0) { 


Step += 0.25; 

System.out.printf("%10d %10.3f %10.3f %10.2f Ss Ss\n", 
Kk, 11], averageLL, averageCorrect * 100, ng, 
newsGroups .values'() .get (estimated)}; 


} 
learningAlgorithm.close(); 


样本 数量 每 次 达到 bump * scale， 都 会 新 输出 一 行 学 习 算 法 当前 的 状态 。 随 着 学 习 不 靳 进 
行 ， 状 态 报 告 的 频率 会 逐步 递减 。 也 就 是 说 ,准确 性 的 变化 越 快 ， 状 态 的 更 新 越 频 繁 。 

最 后 一 句 是 告诉 学 习 算 法 可 以 收工 了 。 这 对 所 有 被 延迟 的 学 习 生 效 ,并 将 一 切 临 时 结构 清除 
干净 。 
14.5 ”选择 训练 分 类 器 的 算法 

Mahout 的 主要 优势 在 于 它 处 理 超 大 并 一 直 增 长 的 数据 集 时 所 体现 出 来 的 健壮 性 。Mahout 中 
的 所 有 算法 和 都 具备 扩展 能 力 ， 但 它们 在 其 他 方面 各 有 特色 ， 能 在 不 同 的 情景 下 发 挥 各 目的 特长 。 
表 14-3 对 Mahout 内 部 用 于 分 类 的 不 同 算法 进行 了 比较 。 这 张 表 及 本 节余 下 的 内 容 ， 有 助 于 你 确定 
哪个 Mahout 算 法 最 适合 特定 的 分 类 问题 。 但 你 要 记 住 ， 这 里 罗列 出 来 的 并 不 是 Mahout 的 全 部 算 
法 ， 因 为 总 有 新 算法 被 不 断 开 发 出 来 。 


表 14-3 Mahout 中 用 于 分 类 的 学 习 算法 


数据 集 大 小 Mahout 算 法 执行 模型 特 性 
小 到 中 型 ( 训练 样 ”随机 梯度 下 降 (SGD ) 一 族 : 串 行 , 在 线 ， 使 用 全 部 类 型 的 预测 变量 ， 在 数据 规模 合 
本 数 在 干 万 以 内 ) onlineLogisticRegression、 增 量 式 适 (上 至 几 百 万 训练 样本 ) 的 情况 下 十 分 
CrossFoldLearner.、 适合 、 高 效 
AdaptiveLogisticRegression 
文 持 向 量 机 (SVM ) 品行 仍 处 于 实验 阶段 ， 在 数据 规模 合适 的 情况 


下 十 分 适合 、 高 效 
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( 续 ) 
数据 集 大 小 Mahout 算 法 执行 模型 特 ”性 
中 到 大 型 ( 训练 样 ”朴素 贝 叶 斯 并 行 等 别 偶 爱 文本 型 数据 ; 需要 中 等 到 很 大 的 
本 数 在 百 万 到 上 训练 开销 ; 处 理 那些 对 于 SGD 或 SVM 来 说 
亿 之 间 ) 过 大 的 数据 集 实 用 有 效 
补充 朴素 贝 叶 斯 并 行 比 朴 素 贝 叶 斯 的 训练 成 本 高 一 些 ; 处 理 对 


于 SGD 来 说 过 大 的 数据 集 实 用 有 效 ， 但 有 
和 朴素 贝 叶 斯 类 似 的 局 限 性 


小 到 中 型 (训练 样 ”随机 森林 站住 使 用 全 部 类 型 的 预测 变量 ; 训练 开销 高 ; 

本 数 在 千 万 以 内 ) 尚未 得 到 普及 ; 成 本 高 ， 但 能 实现 复杂 而 
有 趣 的 分 类 ， 比 其 他 技术 更 擅 于 处 理 数 据 
中 非 线性 和 条 件 关 系 


这 些 算法 的 差异 体现 在 训练 的 开销 或 成 本 , 性 能 表现 最 好 时 对 应 的 数据 集 规模 ,以 及 能 够 实 
现 的 分 析 的 复杂 度 等 方面 。 


14.5.1 ” 非 并 行 但 仍 很 强大 的 算法 : SGD 和 SVM 


正如 在 图 13-1 和 图 13-7 中 看 到 的 那样 ,即便 算法 不 是 并 行 的 , 其 行为 也 会 有 很 强 的 扩展 能 
这 一 市 概述 两 个 串 行 执行 的 Mahout 学 习 算 法 : 随机 梯度 下 降 (SGD ) 和 文 持 回 量 机 (SVM )。 

1. SGD 算 法 

SGD 算 法 应 用 广泛 , 是 那 种 靠 每 个 训练 样本 对 模型 进行 微调 , 然后 逐步 接近 该 样本 正确 答案 的 
学 习 算 法 。 这 一 递增 模式 在 多 个 训练 样本 上 重复 执行 。 我 们 可 以 借助 一 些 特殊 技巧 来 决定 对 模型 的 
微调 程度 , 使 模型 仅 在 一 定数 量 的 样本 上 训练 之 后 能 准确 对 新 数据 进行 分 类 。 尽管 很 难 让 SGD 算 法 
实现 高 效 的 并 行 化 处 理 ， 但 因为 它们 处 理 大 多 数 应 用 时 一 般 都 很 快 ， 所 以 也 没 必 要 并 行 执行 。 

为 这 些 算法 对 每 个 训练 样本 执行 相同 的 简单 操作 ,所 以 它们 所 和 需 的 内 存 大 小 是 恒定 的 , 这 
一 点 很 重要 。 出 于 这 个 原因 ， 每 个 训练 样本 所 需 的 工作 量 基 本 一 致 。 这 些 特性 使 基于 SGD 的 算法 
的 性 能 是 线性 的 ， 即 处 理 两 倍 的 数据 仅 需 两 倍 的 时 间 。 

2. SVM 算法 

Mahout 最 近 新 加 入 了 一 个 SVM 算法 的 实验 性 串 行 实现 。 该 实现 包括 用 Java 实 现 的 
LIBLINEAR 类 库 ， 具 备 工 业 级 强度 但 不 可 扩展 ， 该 类 库 之 前 只 有 C++ 版 。 该 SVM 实现 仍然 是 个 
新 东西 ， 在 部 署 前 应 该 认真 测试 。 

SVM 算法 的 表现 跟 $SGD 很 像 , 都 是 串 行 实现 , 但 对 于 大 量 数据 的 训练 速度 可 能 比 SGD 还 要 悍 
一 些 。Mahout 的 SVM 实现 很 可 能 分 享 了 SGD 的 输入 灵活 性 和 线性 扩展 能 力 ， 所 以 对 于 中 等 数据 
规模 的 项 目 来 说 可 能 优 于 朴素 贝 叶 斯 。 


14.5.2 ”朴素 分 类 器 的 力量 : 朴素 贝 叶 斯 及 补充 朴素 贝 叶 斯 
如 表 14-3 所 示 , Mahout 中 的 朴素 贝 叶 斯 和 补充 朴素 贝 叶 斯 算法 都 是 并 行 算 法 , 在 实际 应 用 中 ， 
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比 基 于 SGD 的 算法 更 适合 处 理 大 型 数据 集 。 因 为 它们 可 以 同时 在 多 台 机 和 带 上 局 效 工作 , 所 以 这 些 
算法 能 处 理 非常 大 的 数据 集 ， 而 基于 SGD 的 算法 在 这 方面 则 略 逊 一 筹 。 

然而 , Mahout 和 实现 的 朴 系 贝 叶 斯 , 仅 限 于 基于 单一 文本 型 变量 进行 分 类 。 对 于 很 多 问题 来 说 ， 
包括 典型 的 大 规模 数据 问题 ， 这 都 不 是 问题 。 但 如 果 需 要 连续 变量 ,并且 不 能 将 其 量化 为 单词 型 
对 象 从 而 和 其 他 文本 数据 一 块 处 理 ， 可 能 就 没 办 法 使 用 朴素 贝 叶 斯 一 系 的 算法 。 

此 外 ， 如 采 数 据 中 有 不 止 一 类 的 单词 型 或 文本 型 变量 ,可 能 震 要 把 这 些 变量 拼接 到 一 起 , 并 
以 一 种 明确 的 方式 添加 前 缀 以 消除 攻 义 。 这 样 做 可 能 会 损失 重要 的 差异 信息 , 因为 所 有 单词 和 类 
别 的 统计 数据 都 混 到 一 起 了 。 但 大 多 数 文本 分 类 问题 , 应 该 都 可 以 用 朴 系 贝 叶 斯 或 补充 朴素 贝 叶 
斯 算法 解决 。 


提示 如 果 你 要 处 理 上 千 万 的 训练 样本 ， 并 且 预 测 变量 只 有 单个 文本 型 值 ， 那 么 朴素 贝 叶 斯 或 
补充 朴素 贝 叶 斯 可 能 是 最 理想 的 草 法 。 而 对 于 其 他 类 型 的 变量 ， 或 者 训练 数据 没 这 人 么 多 
的 话 ， 可 以 试 试 SGD。 


如 果 Mahout 朴 系 贝 叶 斯 的 限制 条 件 与 你 的 问题 吻合 , 那 它们 就 是 首选 的 算法 。 它们 擅长 处 理 
超过 100 000 训 练 样本 的 数据 ， 并 且 在 处 理 超过 千 万 的 训练 样本 时 ， 很 可 能 会 优 于 串 行 执行 的 
算法 。 


14.5.3 ”精密 结构 的 力量 : 随机 森林 算法 


Mahout 中 有 Leo Breiman 的 随机 和 森林 算法 的 串 行 和 并 行 两 种 实现 。 这 一 算法 首先 训练 大 量 的 
简单 分 类 各 , 然后 通过 投票 机 制 得 出 最 终 的 唯一 结果 。Mahout 的 并 行 实 现 是 在 模型 中 并 行 训 练 很 
多 分 类 大。 

上 述 并 行 方式 具有 不 太 寻 党 的 扩展 性 质 。 因为 每 个 小 分 类 兹 部 是 在 所 有 训练 样本 上 针对 部 分 
特征 训练 , 于 是 集群 中 每 个 下 点 对 内 存 的 要 求 大 致 与 训练 样本 数目 的 平方 根 成 正比 。 这 一 点 就 不 
像 朴 又 由 叶 斯 那样 好 , 后 者 对 内 存 的 需求 跟 看 到 的 独立 单词 数目 成 正比 , 因此 大 约 是 跟 训 练 样本 
数目 的 对 数 成 正比 。 

但 这 种 不 太 理 想 的 扩展 性 质 也 会 市 来 “回报 ”， 在 处 理 那 些 对 Logistic 回 归 、SVM 或 朴素 
见 叶 斯 来 说 比较 困难 的 问题 时 ， 随 机 和 森林 模型 有 它 的 独到 之 处 。 一 般 而 言 ， 这 种 问题 都 需要 
模型 用 变量 的 相互 作用 和 离散 化 来 处 理 连 续 变 量 的 国 值 效应 。 比 较 简 单 的 模型 经 过 足够 的 时 
间 和 变量 变换 工作 之 后 ， 也 能 处 理 这 些 效应 ， 但 随机 森林 通 负 不 需要 做 这 些 工作 就 能 解决 这 
些 问题 。 

现在 你 已 经 了 解 Mahout 为 训练 分 类 需 所 提供 的 学 习 算法 了 ,下 面 该 用 实践 来 检验 你 所 学 的 知 
识 了 。 在 14.4 节 ， 我 们 已 经 用 SGD 算 法 针对 20 Newsgroups 数 据 训 练 过 一 个 分 类 需 ; 下 一 全， 我 们 
要 用 为 一 种 算法 斌 一下， 你 也 可 以 比较 一 下 这 两 种 方法 的 结 


14.6 用 朴素 贝 叶 斯 对 20 Newsgroups 数据 分 类 241 


14.6 ”用 朴素 贝 叶 斯 对 20 Newsgroups 数据 分 类 


分 类 路 径 部 分 取决 于 所 用 的 Mahout 分 类 算法 ,正如 前 面 一 方 提 到 的 , 算法 是 并 行 还 是 串 行 执 
行 有 很 大 差别 。 并 行 的 SGD 算 法 和 串 行 的 朴素 由 叶 斯 算法 有 不 同 的 输入 路 径 ,， 而 这 种 差异 又 要 求 
用 不 同 的 方式 处 理 数据 ， 特 别 是 癌 量 化 。 

本 节 会 癌 你 展示 如 何 用 朴 北 贝 叶 斯 模型 处 理 14.4 节 处 理 过 的 20Newsgroups 数 据 。 对 相同 的 数 
据 用 不 同 的 算法 ， 你 就 能 看 出 串 行 方式 和 并 行 方式 在 构建 分 类 模型 上 的 差异 。 

我 们 首先 要 为 训练 算法 准备 数据 ， 进 行 数据 提取 ， 然 后 你 将 了 解 如 何 训练 模型 。 完 成 之 后 ， 
你 就 可 以 开始 评 佑 最初 的 模型 ， 并 确定 它 是 表现 展 好， 还 是 需要 进行 调整 。 


14.6.1 开始 : 为 朴素 贝 叶 斯 提取 数据 


我 们 先 把 数据 转换 成 可 分 类 形式 ， 并 转 成 朴素 贝 叶 斯 算法 用 的 文件 格式 。 所 用 的 数据 就 是 
14.4 广 给 SGD 示 例 所 用 的 20 Newsgroups 数 据 集 。 

朴素 贝 叶 斯 分 类 需 可 以 和 跟 SGD 分 类 需 一 样 以 编程 方式 驱动 , 但 它 也 有 可 以 通过 命令 行 调用 
的 内 置 解析 器 。 这 个 解析 器 可 以 接受 SVMLight 程 序 所 用 的 数据 文件 格式 的 一 种 变 体 ， 其 中 的 
条 数据 记录 在 文件 中 占 一 行 , 包括 目标 变量 的 值 ， 后 跟 用 空格 分 隅 的 特征 ， 出 现 特征 名 表示 该 特 
征 的 值 为 1， 没 有 则 表明 该 特征 的 值 为 0。 要 用 命令 行 版 本 的 朴素 贝 叶 斯 分 类 融 ， 你 必须 将 20 
Newsgroups 数 据 集 中 的 数据 转换 成 这 种 格式 。 

在 20 Newsgroups 数 据 集中 ， 每 个 新 闻 组 (newsgroup ) 的 数据 占 一 个 目录 ， 目 录 中 的 每 个 文 
件 都 是 一 个 文档 。 我 们 需要 扫 朱 所 有 的 目录 ， 并 把 文件 都 转 成 单行 文本 ， 以 目录 名 开头 ， 跟 着 是 
文档 中 出 现 的 所 有 单词 。Mahout 中 的 prepare20newsgroups 程 序 完 成 的 就 是 这 个 功能 。 要 转换 
训练 和 测试 数据 ， 请 用 下 面 的 命令 : 

$s bin/mahout prepare20newsgroups -p 20news-bydate-train/ \ 

0mnewe ratip \ 


-a org.apache. lucene.analysis.standard.StandardAnalyzer 
= TE 


no HADOOP CONF DIR or HADOOP HOME set, running locally 
INFO: Program took 3713 ms 


S bin/mahout prepare20newsgroups -pp 20news-bydate-test \ 
-oO 20news-test 、 
-a org.apache. lucene.analysis.standard.StandardAnalyzer 
= 了 RE 

no HADOOP CONF _ DIR or HADOOP HOME Set，YunnInc Jocally 

INFO: Program took 2436 ms 


命令 中 的 选项 -p 指 定 存放 训练 或 测试 数据 的 目录 名 ， 选 项 -o 指 定 输 出 目录 ， 选 项 -a 指定 文 
本 解析 融 ， 选 项 -c 指 定 将 输入 字 布 转 成 文本 所 用 的 字符 编码 类 型 。 

这 个 命令 的 运行 结果 应 该 是 个 叫做 20news-train 的 目录 ， 每 个 新 闻 组 一 个 文件 。 在 像 
20news-train/misc.forsale.txt 这 样 的 数据 文件 中 ， 你 会 见 到 如 图 14-7 所 示 的 结果 。 


目标 变量 要 分 类 的 文本 
是 | i 册 
misc.forsale from kedzQbigwpi.wpi.edu john kedziora subject ... 
misc.forsale from myoakamlcis.ohio-state.edu micah 上 yoakam subject ... 
misc.forsale from gtl706a@prism.gatech.edu maureen 1 eagle subject ... 
misc.forsale from mike diack mike-dlstaff.tc.umn.edu subject make ..,. 
misc.forsale from Jvinsonlxsoft.xerox.com Jeffrey vinson subject ... 
misc.forsale from hungjenc@usc.edu hung jen chen subject test ... 


图 14-7 ”将 训练 数据 转换 为 朴素 贝 叶 斯 程序 偶 爱 的 格式 。 注 意 ， 这 里 显示 的 内 容 已 经 缩短 了 很 多 


14.6.2 ”训练 朴素 贝 了 时 斯 分 类 器 


至 此 为 止 ， 我们 一 下 在 处 理 20 Newsgroups 数 据 ， 提 取 特 征 为 朴素 贝 叶 斯 算法 准备 恰当 的 输 
入 数据 。 将 训练 和 测试 数据 转换 成 正确 的 格式 后 ， 可 以 训练 分 类 模型 了 。 
试 一 下 下 面 的 命令 ， 产 生 一 个 使 用 朴素 贝 叶 斯 算法 的 训练 模型 ， 
bin/mahout trainclassifier -i 20news-train \ 
-0 20news-model \\ 
-type cbayes \ 
-ng 1 \ 
-Source hdts 


INFO: Program took 250104 ms 

运行 结果 是 存在 20news-model 目 录 中 的 模型 ， 这 个 目录 是 由 选项 -o 指 定 的。 选项 -ng 表明 考 
虑 独立 的 单词 而 不 是 单词 的 短 厅 列 。 模 型 中 有 几 个 文件 , 分 别 包含 模型 的 一 部 分 。 这 些 都 是 二 进 
制 文件 ， 想 直接 检查 不 太 容 易 ， 但 你 能 借助 estclassifier 程 序 用 它们 对 测试 数据 进行 分 类 。 

你 现在 已 经 利用 20 Newsgroups 数 据 和 朴素 贝 叶 斯 算法 构建 一 个 模型 ， 并 进行 了 初步 的 训练 。 
这 个 模型 好 用 吗 ? 你 可 以 评估 模型 的 性 能 ， 以 回答 这 个 问题 。 


14.6.3 ”测试 朴素 贝 叶 斯 模型 


现在 是 新 训练 模型 的 评估 时 间 。 我 们 会 介绍 评估 流程 ， 并 对 新 训练 的 模型 进行 一 些 初步 的 测 
试 。 在 第 15 章 ， 我 们 会 深入 探讨 这 一 主题 。 
要 在 测试 数据 上 运行 朴素 贝 叶 斯 模型 ， 可 以 使 用 下 面 的 命令 : 
bin/mahout testclassifier -d 20news-test \ 
-mn 20news-model \\ 
-type cbayes \ 
-ng 1 \ 
-Source hdfs \ 
-method sequential 


其 中 的 选项 -m 指 明了 上 一 步 构 建 的 模型 所 在 的 日 录 。 选 项 -method 指 明 程 序 应 该 以 串 行 模式 
运行 ， 而 不 是 使 用 Hadoop。 像 这 样 的 小 数据 集 ， 串 行 处 理 更 好 。 而 对 于 比较 大 的 数据 集 ， 则 必须 
采用 并 行 操作 ， 以 保证 运行 时 间 控 制 在 合理 范围 内 。 
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测试 程序 运行 完 后 ,会 输出 下 面 这 种 信息 。 汇 总 信息 中 有 正确 或 不 正确 分 类 文档 的 原始 数量 。 


ER 

Correctly Classified Instances : 6398 84.9442% 
Incorrectly Classified Instances 。 1134 15.0558% 
Total Classified Instances : 7532 


我 们 只 摘录 了 输出 信息 中 的 汇总 部 分 ， 其 他 部 分 都 省 略 了 。 从 汇总 信息 中 可 以 看 出 ,朴素 由 
叶 斯 模型 表现 很 好 ， 正 确 率 几乎 达到 了 8$%。 除 了 总 体 数 值 (gross number )， 汇 总 信息 中 再 没有 
任何 与 错误 有 关 的 详细 信息 。 输 出 的 下 一 部 分 是 混 消 和 矩阵 〈confusion matrix )， 其 中 有 错误 的 详 
细 信 息 。 这 这 部 分 输出 如 下 : 


Confusion Matrix 


abcdef ghi-jklmamnopdgqrst <--Classified as 


388 397 a = rec.sport.baseball 
386 396 b = sci.crypt 
396 399 cc = rec.sport.hockey 
347 364 d = talk.politics.guns 
377 398 ee = soc.religion.christian 
12 304 18 393 f = sci.electronics 
281 14 43 21 394 g = comp.os.ms-windows .misc 
313 22 16 390 hn = misc.forsale 
26 69 83 41 251 1 = talk.religion.misc 
45 225 13 11 319 Jj = alt.atheism 
334 32 395 k = comp .windows.xXx 
367 376 1 = talk.politics.mideast 
19 23 15 307 13 392 m =comp.sys.ibm.pc.hardware 
16 335 385 Nn = comp.sys.mac.hardware 
371 394 oO = sci.space 
393 398 p = rec.motorcycles 
12 364 396 9 = rec.autos 
11 22 305 389 r = comp.graphics 
102 160 310 s = talk.pPolitics.misc 
362 396 七 = sci.med 


Default Category: unknown: 20 


实际 输出 和 本 书 中 的 会 稍 有 不 同 , 因为 此 处 为 了 适应 纸 面 的 宽度 , 我 们 把 实际 输出 的 长 度 压 
缩 了 。 混 消 和 矩阵 中 给 出 了 所 有 正确 和 不 正确 分 类 的 分 解 信息 ,因此 可 以 看 到 模型 在 测试 数据 上 犯 
了 哪些 错误 。 沿 看 对 角 线 , 我 们 可 以 看 到 大 多 数 新 闻 组 的 分 类 做 得 都 挺 好 ， 只 有 talk.religion.misc 
和 talk.politics.misc 两 个 新 闻 组 的 正确 分 类 数量 相对 较 少 ， 显 得 比较 突出 。talk.politics.misc 新 闻 组 
中 几乎 有 1/3 文 档 的 分 类 不 正确 , 被 归 到 了 talk.politics，. es 即便 不 能 说 正确 , 但 最 起 码 表面 上 
看 起 来 是 讲 得 通 的 。 同 样 ，talkreligion.misc 中 有 69 个 文档 被 分 到 了 soc.religion.christian 中 ， 这 也 

能 说 得 通 。 看 到 这 些 错 误 具 有 某 种 意义 ,我 们 应 该 更 加 安心 了 ,因为 它们 表明 模型 是 根据 文档 内 
容 的 实际 含义 来 选择 类 别 的 。 

有 点 讽刺 的 是 ， 如 果 看 到 模型 的 性 能 不 是 出 奇 得 好 ， 心 里 倒 会 更 加 安心 。 比 如 说 ， 如 果 在 相 

同 的 训练 数据 上 再 次 运行 上 面 学 到 的 模型 ， 汇 总 信息 将 如 下 所 示 : 
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bin/mahout testclassifier -d 20news-train -m 20news-model\ 
-type cbayes -ng 1 -source hdfs -method segquential 


Correctly Classified Instances : 11075 97.8876% 


Incorrectly Classified JInstances : 239 2.1124% 
Total Classified Instances e i11314 


对 于 这 些 训练 中 熟悉 的 数据 ， 模 型 的 正确 率 能 够 达到 98%， 对 于 这 个 具体 问题 来 说 ， 好 得 太 
过 离谱 。 最 好 的 机 带 学 习 人 研究 人 员 在 提 到 他 们 系统 的 正确 率 时 , 也 只 是 说 大 概 在 84% 到 86% 之 间 。 
我 们 在 后 续 各 章 中 还 会 针对 模型 评 佑 问题 展开 更 多 的 讨论 , 特别 是 探讨 如 何 形 成 一 种 思路 来 判断 
模型 真正 应 有 的 表现 。 


14.7 ”小结 


这 一 章 介 绍 了 如 何 对 20 Newsgroups 数 据 集中 的 真实 数据 构建 和 训练 分 类 需 ， 并 重点 介绍 了 
特征 提取 ， 以 及 如 何 为 项 目 选 择 最 佳 算 法 。 

无 论 从 时 间 、 精 力 , 还 是 做 好 之 后 所 能 币 来 的 回报 来 看 ,特征 提取 都 是 构建 分 类 系统 的 重 中 
之 重 。 记 住 ， 对 于 不 同 的 分 类 融 而 言 ， 每 个 特征 的 价值 并 非 总 是 一 样 的 ， 你 需要 答 试 多 种 组 合 来 
看 它们 的 实际 效果 。 原 始 数据 是 不 能 直接 使 用 的 。 至 于 如 何 将 原始 数据 变 成 可 分 类 的 形式 ， 然 后 
如 何 再 将 其 变 成 Mahout 学 习 算法 所 要 求 的 向 量 ， 书 中 已 经 给 出 了 详细 介绍 。 

对 于 不 同 的 学 习 算法 而 言 ， 其 作为 输入 变量 的 可 接受 值 类 型 不 同 。14.5 广 专门 概述 了 区 分 不 
同 算法 的 各 种 差别 ， 此 外 还 介绍 了 一 些 其 他 的 差异 。 现 在 ,你 对 使 用 不 同 算法 的 优点 和 代价 应 该 
有 个 基本 的 认识 ， 可 以 根据 目 己 的 理解 选择 适合 目 己 项 目的 算法 了 。 

最 后 ， 我 们 介绍 了 两 种 学 习 算 法 ( SGD 和 村 每 贝 叶 斯 ) 在 相同 数据 集 〈( 即 20 Newsgroups 数 
据 ) 上 的 表现 。 

相信 你 对 分 类 第 一 阶段 (训练 模型 ) 已 经 有 了 深入 的 了 解 ， 我们 接 下 来 关注 第 二 阶段 ， 即 对 
训练 得 到 的 模型 进行 评估 和 调 优 。 这 正 是 下 一 章 的 主题 。 


分 类 器 评估 及 调 优 


本 章 内 容 

口 分 类 带 评 佑 中 的 基本 问题 

口 使 用 Mahout 中 的 评估 API 

口 度量 某 个 SGD 分 类 需 的 性 能 

口 分 类 震中 的 篆 见 问题 及 处 理 方法 
口 分 类 需 调 优 方法 


由 于 在 分 类 中 处 于 重要 地 位 , 评估 在 Mahout 逢 构 建 为 一 个 基础 构件 。 本 章 主 要 考虑 分 类 过 程 
的 第 二 步 即 分 类 带 的 评 信 及 调 优 过 程 , 该 过 程 为 分 类 右 的 生产 部 和 著 及 性 能 维护 做 准备 。 我 们 会 介 
绍 如 何在 一 个 局 层次 上 对 分 类 带 进 行 评 佑 ， 并 介绍 利用 Mahout API 进 行 评 佑 的 细节 。 本 章 会 给 出 
一 个 如 何 使 用 Mahout API 的 例子 。 我 们 还 会 给 出 多 个 例子 来 强调 如 何 利 用 Mahout 评 佑 API 的 性 能 
指标 和 诊断 功能 来 诊断 分 类 前 中 的 笛 见 问题 。 本 章 最 后 会 给 出 分 类 融 调 优 策略 和 反 术 的 一 个 讨 
论 ， 涉 及 的 范围 从 选择 算法 一 二 到 调整 学 习 率 。 

分 类 带 评 佑 也 给 出 了 一 些 陷 阱 ,本章 会 给 出 一 些 方法 来 避免 其 中 代价 最 大 的 陷阱 。 必 一 方面 ， 
由 于 分 类 带 模 型 内 部 机 理 可 能 难以 理解 ， 所 以 分 类 带 评 优 本 身 也 存在 挑战 。 


15.1 Mahout 中 的 分 类 器 评估 


要 构建 一 个 成 功 的 分 类 需 , 评估 是 相当 重要 的 一 环 。 它 涉及 的 远 远 不 止 是 模型 训练 之 后 得 到 
的 表示 成 功 程度 的 某 个 单一 得 分 。 实 际 上 ,， 它 是 从 训练 时 就 开始 的 一 个 反复 迭代 过 程 。 构建 分 类 
作 时 早期 的 评 佑 很 有 价值 ,这 是 因为 它 可 以 避 励 我 们 做 出 多 种 可 能 的 尝试 ,包括 选择 不 同 的 算法 、 
配置 和 预测 变量 集合 。 除 此 之 外 , 评 佑 还 可 以 对 数据 预 处 理 流程 中 的 错误 进行 校 验 , 这 些 错误 有 
可 能 会 使 分 类 需 表 现 得 比 实 际 效 末 要 好 。 

为 评 佑 分 类 送 ，Mahout 提 供 了 一 系列 的 性 能 指标 。 这 些 指标 主要 包括 正确 百分比 或 称 正 
确 率 (percent correct )、 混 淆 矩阵 ( confusion matrix )、AUC 和 对 数 似 然 (log likelihood ) 等 。 
朴素 山 叶 斯 和 补充 朴素 贝 叶 斯 ( complementary naive Bayes ) 最 好 用 正确 率 和 混 消 和 矩阵 来 评估 。 
对 于 SGD 算 法 上 述 四 种 评估 指标 都 可 以 ,但 是 AUC 和 对 数 似 然 可 能 尤其 有 效 ， 这 是 因为 它们 
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能 够 深入 到 模型 的 置信 度 水 平 。 

本 方 主要 介绍 三 个 方面 的 内 容 : 首先 是 如 何 获 得 对 模型 性 能 的 反馈 , 甚至 在 训练 阶段 束 医 得 
有 反馈 ; 其 次 是 如 何 解释 Mahout 提 供 的 多 个 性 能 指标 ; 最 后 是 如 何 将 损失 代价 集成 到 分 类 带 评 估 
当 中 O 


15.1.1 获取 即时 反馈 


Mahout 中 的 评 们 与 其 他 系统 稍 有 不 同 。 其 中 一 个 不 同 是 Mahout 能 够 在 进行 中 提供 即时 的 性 
能 评 佑 , 它 允 许 用 户 一 次 将 目标 变量 分 值 和 参照 值 输入 给 评估 各 来 获得 现场 的 性 能 反馈 。 这 一 点 
相当 有 用 。 与 此 形成 对 照 的 是 , 有 些 其 他 系统 当中 必须 要 批 处 理 得 到 所 有 的 得 分 和 目标 变量 值 之 
后 才能 进行 评 佑 。 当 需要 记录 学 习 系 统 的 过 程 时 ，Mahout 的 这 种 在 线 评 佑 能 力 就 能 提供 方便 。 不 
仅 如 此 , 由 于 Mahout 能 够 在 系统 运行 时 像 在 学 习 过 程 中 一 样 对 学 习 参 数 进行 调整 , 因此 上 述 做 法 
也 会 市 来 实际 价值 。 

上 述 获得 进行 中 的 指标 的 能 力 非常 好 ， 但 是 这 些 指标 的 含义 到 展 如 何 ? 


15.1.2 ”确定 分 类 “好 ”的 含义 


下 党 上 , 大 部 分 用 户 虱 希望 分 类 带 越 精确 越 好 , 并 且 最 好 每 次 痢 将 分 类 对 和 象 放 入 正确 的 类 别 
当中 。 不 竺 的 是 ,这 种 百 党 并 不 能 市 来 一 个 实际 的 评 佑 机 制 。 在 现实 当中 ,没有 分 类 融会 做 到 百 
分 之 日 正确 。 实 际 上 ,一 个 很 高 的 精确 率 往 往 表明 测试 中 出 现 了 错误 ， 即 看 起 来 太 好 了 不 像 是 真 
的 ,那么 很 可 能 就 不 是 真 的 ! 于 是 ， 到 的 如 何 度量 分 类 带 的 “好 ”? 一 个 有 效 的 评 佑 方法 要 取得 
成 功 ， 就 必须 要 有 实际 真实 的 基准 ， 这 样 才 能 认识 到 分 类 俘 的 高 效 性 。 

诸如 正确 座 之 类 的 傈 单 精度 指标 并 不 是 对 分 类 融 进 行 评估 和 调 优 的 最 好 指标 。 比 如 , 考虑 表 
15-1 中 两 个 假想 的 模型 的 对 比 。 从 中 可 以 看 到 ， 如 宁 采 用 一 个 侧 单 的 指标 ， 一 个 几乎 全 错 的 分 类 
从 实际 上 会 比 某 个 偶尔 还 会 对 的 分 类 天 更 有 用 。 

表 15-1 两 个 假想 的 分 类 器 数据 ， 该 数据 表明 仅仅 考察 正确 率 会 有 一 些 缺陷 。 表 中 每 列 给 出 的 


是 模型 每 种 可 能 输出 结果 的 频率 得 分 值 ， 每 行 给 出 了 具体 的 正确 值 ， 最 高 得 分 都 用 加 
粗 字 体 显示 。 其 中 ， 模 型 1 几乎 从 不 正确 ， 但 是 仍然 可 能 有 用 ， 而 模型 2 却 像 一 个 “ 停 


摆 的 钟 ” 
机 
A B C A B C 
A 0.45 0.50 0.05 0.01 0.01 0.99 
B 0.50 0.45 0.05 0.01 0.01 0.99 
C 0.05 0.50 0.45 0.01 0.01 0.99 


上 面 这 个 假想 的 例子 表明 ,仅仅 简单 地 看 正确 座 往 往 不 能 展示 模型 的 大正 价值 。 上述 表格 中 ， 
每 行 对 应 一 个 样本 ， 最 左边 是 正确 的 答案 。 而 每 列 代表 的 是 三 种 可 能 输出 结 末 中 每 一 种 的 得 分 。 
模型 1 从 来 痢 不 对 ,但 是 它 比 模型 2 要 有 价值 得 多 ,尽管 后 者 看 上 去 精度 明显 要 局 一 些 。 棕 型 2 采 
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用 某 个 过 分 人 简单 的 固定 规则 来 评分 ， 有 时 会 取得 正确 的 结果 , 但 这 完全 是 纯 随 机 的 。 而 相 比 较 而 
言 ， 模 型 1 却 看 上 去 始终 能 够 从 三 种 可 能 中 选择 错误 的 那个 。 

在 很 多 应 用 中 ， 由 于 模型 2 虽然 有 时 会 得 到 正确 结 末 但 却 永远 不 会 改变 输出 结 末 , 所 以 模型 1 
的 结 末 可 能 在 很 多 需求 下 会 比 模型 ?更 好 。 对 于 上 例 而 言 ， 模 型 1 的 正确 率 是 0， 而 模型 2 部 为 1/3。 
相 比 之 下 ， 模 型 1 的 平均 对 数 似 然 是 -0.8， 而 模型 2 为 -3.3， 后 痢 更 差 一 些 。 下 一 节 当 中 ， 我 们 会 
讨论 像 对 数 似 然 这 样 的 一 些 指 标 ， 它 们 能 够 更 好 地 反映 出 我 们 想 看 到 的 性 能 好 坏 。 

进一步 地 ， 对 于 模型 来 说 ， 了 解 它 何 时 可 能 正确 和 何 时 可 能 不 对 十 分 有 用 。 有 一 些 性 能 指标 
能 够 反映 这 种 “ 目 知 之 明 ”。 上 例 中 的 模型 1 提供 了 这 个 信息 ， 它 对 于 两 种 选择 表现 得 模 楼 两 可 ， 
其 中 一 种 选择 实际 是 正确 的 。 而 模型 2 看 上 去 对 于 选择 正确 与 否 没 有 提供 任何 线索 。 当 然 ， 如果 
利用 对 数 似 然 也 能 正确 地 显示 出 这 种 显著 的 差别 。 

然而 , 有 时 采用 一 个 统一 的 性 能 指标 并 不 是 一 件 好 事 。 当 菏 些 错误 的 代价 了 远 远 高 于 其 他 错误 
时 这 一 问题 第 第 束 会 发 生 。 


15.1.3 ”认识 不 同 的 错误 代价 


当 某 些 错误 的 代价 高 于 其 他 错误 的 时 候 , 简单 的 精度 指标 的 可 用 性 会 大 打折 扣 。 伪 正 例 (false 
positive ) 可 能 就 比 伪 反例 (falsenegative ) 付出 的 代价 要 低 很 多 。 比 如 ， 本 来 没有 癌症 ， 但 是 误 
测 出 癌症 了 , 可 能 需要 付出 重新 检查 和 胆 战 心 恢 的 代价 , 但 是 如 果 本 来 有 癌症 , 但 是 没 检测 出 来 ， 
则 会 付出 生命 的 代价 。 

和 上 面 的 例子 相 比 , 一 个 不 那么 令 人 瞩目 的 反映 漏 报 和 误 报 的 不 同 代 价 的 例子 是 垃圾 邮件 过 
滤 。 如 条 垃圾 邮件 被 判 为 正 第 邮件 ,用 户 可 能 只 是 抱怨 , 但 如 采 正 党 邮件 被 判 为 垃圾 邮件 ， 用 户 
可 能 会 大 为 光 火 。 每 次 将 垃圾 邮件 误 判 为 正常 邮件 只 是 浪费 了 用 户 的 数秒 时 间 , 而 将 正常 邮件 标 
记 为 垃圾 邮件 市 来 的 远 远 不 止 是 不 方便 而 已 。 如 采 这 种 情况 相当 频 过 , 那么 用 户 有 可 能 发 现 问题 
并 采取 相应 行动 。 但 是 ， 如 采 上 述 错误 十 分 罕见 ,用 户 台 可 能 意识 不 到 需要 对 这 种 可 能 出 现 的 问 
题 进行 弥补 ， 这 样 的 话 后 采 会 不 断 升级 。 

Mahout 分 类 天 评估 API 的 输出 结果 可 以 参考 第 13 草 和 第 14 章 给 出 的 例子 。 这 两 草 中 给 出 的 命 
令 行 工 具 可 以 给 出 评 佑 的 输出 结 采 。 某 些 情 况 下 ,第 规 的 诊断 方法 已 经 足够 , 但 是 通常 而 言 用 户 
需要 在 自己 的 程序 中 使 用 API 来 了 解 运行 的 效果 。 下 一 节 将 详细 介绍 如 何 利用 Mahout 中 的 评估 
API 来 进行 评 佑 。 


15.2 分 类 器 评估 API 


Mahout 的 分 类 带 评 优 API 包 含 了 一 系列 的 类 ， 用 于 计算 各 种 分 类 从 性 能 指标 。 不 论 用 户 是 否 
使 用 Mahout 中 的 分 类 条 ， 这 些 评 佑 类 或 许 和 都 十 分 有 用 。 

Mahout API 类 所 文 持 的 多 种 分 类 器 指标 如 表 15-2 所 示 。 每 个 指标 都 会 在 后 续 小 节 中 详细 介 
绍 。 其 中 包括 如 何在 线 和 离线 进行 指标 的 计算 。 在 线 学 习 算 法 也 提供 了 API， 用 于 在 训练 阶段 访 
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问 上 述 的 几 个 性 能 指标 。 正 如 在 表 15-2 中 可 能 看 到 的 那样 ， 所 有 的 指标 的 支持 方式 并 不 一 人 致 。 表 
15-3 中 按照 类 分 别 列 出 了 相关 功能 。 


表 15-2 ”Mahout 通 过 多 个 API 所 支持 的 分 类 器 性 能 指标 


指 标 支持 的 类 

正确 率 CrossFoldLearner 

混 消 矩阵 ConfusionMatrix, Auc 

炉 矩阵 AuCc 

AUC Auc, OnlineAuc, CrossFoldLearner, AdaptiveLogisticRegression 
对 数 似 然 CrossFoldLearner 


表 15-3 支持 分 类 器 性 能 评估 的 类 


类 方 法 
Auc auc()、 confusion()、 entropy () 
onlineAuc® auc () 
OnlineSummarizer 
ConfusionMatrix 
AbstractVectorClassifier loglikelihood(int, vector) 
CrossFoldLearner auc()、 percentCorrect()、 loglikelihood() 
AdaptiveLogisticRegression auc ( ) 


需要 注意 的 是 ， 上 述 各 类 的 使 用 方式 有 所 不 同 。 上 面 的 学 习 算 法 , 包括 AdaptiveLogistic 
Regression.、 CrossFoldLearner 以 及 AbstractVvectorClassifier 都 提供 了 对 所 学 模型 进 
行 评估 的 方法 。 而 与 此 形成 对 照 的 是 ，Auc 和 onlineAuc 是 相互 独立 的 类 ， 它 们 在 给 定 得 分 和 目 
标 参 照 值 之 后 计算 性 能 指标 。 而 最 后 ，on1ineSummarizer 对 任意 指标 计算 总 的 统计 信息 。 

下 面 我 们 将 介绍 计算 这 些 指标 的 过 程 细 市 。 


15.2.1 计算 AUC 


当 所 要 评估 的 模型 的 目标 变量 为 二 值 且 该 模型 的 输出 得 分 为 连续 值 时 ,采用 AUC 指 标 十 分 有 
用 。 例 如 ， 某 个 分 类 带 计 算 一 个 物品 是 否 包 含 某 个 属性 的 0 到 1 之 间 的 概率 ， 该 分 类 融 就 适合 用 
AUC 来 计算 。AUC 并 不 要 求 分 类 需 的 输出 得 分 一 定 是 概率 佑 计 仁 ， 输 出 值 范 围 差 异 很 大 的 分 类 
器 都 可 以 利用 AUC 来 比较 。 

读 考 不必 深入 理解 AUC 的 意义 ， 只 需要 记得 AUC 是 指 一 个 随机 选择 的 yes 实 例 要 比 一 个 随机 
选择 的 no 实例 的 得 分 要 高 的 概率 。 一 个 输出 的 得 分 和 目标 变量 训 不 相干 的 分 类 融 的 AUC 值 在 0.5 
左右 ， 而 一 个 完美 模型 的 AUC 得 分 为 1 。AUC 得 分 在 0.7 到 0.9 之 间 的 模型 通常 被 认为 “好 ”。 对 于 
欺诈 检测 和 点 击 分 析 来 说 ,， 上述 区 间 也 是 模型 产生 有 用 的 精确 结果 的 区 则 范围 。 当 模型 的 预测 结 
果 正 好 和 目标 变量 相反 时 ，AUC 的 得 分 为 0。 


J 原文 该 表格 不 全 ， 故 根据 上 下 文 进 行 了 修改 。 另 外 ，onlineauc 实 际 上 是 一 个 接口 ， 不 是 类 。 一 一 译 考 注 
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(by) 不 论 出 于 实际 还 是 理论 上 的 考虑 ,， AUC 最 好 采用 如 下 计算 方式 , 即 从 所 有 数据 中 保留 一 部 分 
No. 15 作为 测试 数据 , 然后 在 这 些 已 知 目标 结果 的 测试 数据 上 比较 分 类 一。 不 对 的 是 ,， AUC 通 常 仪 适合 
于 计算 输出 得 分 值 的 二 值 分 类 模型 而 不 是 人 硬 分 类 结果 。 当然, 现在 也 存在 AUC 的 一 些 扩展 能 够 文 
持 非 二 值 的 分 类 结果 ,但 是 目前 Mahout 并 不 文 持 这 些 扩展 。 
Mahout 中 ,如 末 二 值 分 类 右 在 测试 数据 上 的 输出 得 分 值 和 标准 日 标 变 量 值 已 知 的 话 , 存在 多 
种 计算 AUC 的 方法 ， 其 中 包括 org.apache .mahout.classifier.evaluation 包 的 Auc 类 。 
此 外 ， 还 存 在 onlineAuc 的 接 器 实 现 以 及 org.apache.mahout.math.stats 包 中 的 
GlobalOnl ineAuc 或 Groupedon1 ineAuc 类 。 对 于 上 述 提 到 的 所 有 类 ， 只 要 给 出 测试 数据 上 的 
真实 目标 变量 值 和 分 类 骨 的 输出 得 分 值 就 可 以 计算 AUC。 而 对 于 这 些 类 , AUC 的 值 均 来 目 auc () 
J 
onlineAuc 与 Auc 有 所 不 同 , 在 数据 载 人 过 程 中 的 任意 时 刻 onlineauc 都 可 以 给 出 AUC 的 舍 
计 信 ,尽管 每 个 元 系 搬 和 人 的 开销 稍 大 ,但 这 种 估计 所 需要 的 开销 却 很 小 。 尽 管 Auc 和 on1lineauc 中 
的 算法 的 结果 基本 相同 ,但 是 由 于 涉及 对 数 千 的 样本 排序 ,Auc .auc () 的 开销 比 onlineaAuc .auc () 
更 大 。 
下 面 的 代码 清单 给 出 了 上 述 两 个 类 当中 如 何 从 文件 中 谈 和 人 分 类 需 得 分 和 目标 变量 信 然 后 计 
算 AUC 的 过 程 。 


代码 清单 15-1 向 AUC 指 标 类 传递 数据 
AUC Xl = new AuC().; 


OnlineAuc x2 = new GlobalonlineAuc!(): 
BufferedReader in = new BufferedReader (new FileReader (inputFile)).; 


int lineCount = 0; 

String line = in.readLinet{)}.; 

while (line != null) f{ 
lineCount++; 


string[] pieces = line.split({",").; 
double score = Double.parseDouble (pieces[0]); 
int target = Integer.parseInt (pieces[1]); 
xl.add{target, score);: 
x2.addsample (target, score).: 
if (lineCount®500 == 0) { 0 
System.out .printf{("%S1Od\t%S10.3ft\t%10d\t® .3f\n", 
lineCount, score, target, x2.auc(})).; 


} 


line = in.readLine!(}).: 
: x1 和 x2 的 结果 
System.out.printf("%d lines read\n", lineCount); 实际 上 完全 一 样 
System.out.printf("%10.2f = batch estimate\n", xl.auc()) 
System.out.printf("%10.2f = on-line estimate\n'", x2.auc())}.; 


上 述 程序 当中 ，x1 和 x2 计 算出 的 AUC 值 几乎 完全 一 样 ， 但 是 对 于 x2 来 说 ， 在 扫描 数据 的 过 
程 中 ， 它 就 会 产生 AUC 在 过 程 中 的 估计 值 @。 最 后 ，x1 和 x2 得 到 的 结果 本 质 上 相同 ， 但 是 它们 
的 实现 方式 有 所 不 同 @。 
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在 CrossFoldLearner 和 AdaptiveLogisticRegression 类 中 auc () 及 getLogLikelihood() 
方法 的 训练 过 程 中 , 可 以 计算 最 新 的 AUC 或 对 数 似 然 值 。 通过 这 些 值 可 以 对 训练 的 多 个 模型 进行 
比较 。 这 个 过 程 通 过 AdaptiveLogisticRegression 来 实现 , 其 中 它 可 以 在 训练 中 对 训练 参数 
进行 调整 。 

尽管 AUC 通 党 是 二 值 目标 变量 及 输出 分 值 时 的 黄金 标准 ,但 当日 标 变量 不 止 两 类 或 者 不 会 输 
出 得 分 值 时 ， 还 需要 寻找 其 他 好 的 评估 指标 。 


15.2.2 ”计算 混淆 和 矩 阵 和 炳 矩 阵 


对 于 输出 非 分 值 结果 的 分 类 此 来 说 ,可 能 最 耻 接 的 指标 就 是 混 清 矩阵 。 混 清 窍 阵 是 模型 输出 
结 末 和 已 知 正 确 日 标 值 的 交 义 表 。 矩阵 的 每 一 行 对 应 真实 上 日 标 值 而 每 一 列 对 应 模型 的 输出 值 。 和 矩 
阵 第 i 行 j 列 的 元 系 值 为 类 别 的 测试 样本 被 檬 型 分 到 类 别 j 中 的 数 日 ,一 个 好 模型 对 应 的 混 清 矩 阵 的 
大 元 系 都 集中 在 对 角 线 。 这 些 对 角 线 元 系 指 的 是 类 别 ; 中 样本 被 正确 分 到 类 中 的 数目 。 

下 面 给 出 了 一 个 混 酒 矩阵 的 例子 。 


Confusion Matrix 


| b d 他 于 <--Classified as 

9 0 .| 0 0 0 | 10 a = one 

0 9 0 0 1 0 | 10 b = 上 wo 

0 0 10 0 0 0 | 10 c three 
0 OD 1 8 1 0 | 10 d = four 
1 J 0 0 7 人 | 10 人 = five 
0 0 0 0 1 9 | 10 上 > 丰 工 区 
Default Category: one: 6 


这 个 例子 中 的 数据 是 我 们 目 己 造 的 ， 该 例子 给 出 了 一 个 典型 的 精确 分 类 硕 ， 我 们 可 以 看 到 ， 
和 矩 阵 中 的 大 元 系 痢 集中 在 对 角 线 上 。 

代码 清单 15-2 给 出 了 利用 org.apache.mahout.classi fier 包 中 的 ConfusionMatrix 类 
来 计算 混 消 和 矩阵 的 过 程 , 该 过 程 使 用 了 训练 集 或 测试 集中 真实 的 类 别 结果 ,以 及 分 类 各 的 输出 结 
果 。 这 段 代 人 码 会 对 数据 进行 两 次 扫描 :一 次 是 获得 所 有 的 目标 变量 列表 , 为 一 次 是 填充 混 汪 矩阵。 
通常 情况 下 第 一 次 扫描 并 不 一 定 要 做 , 这 是 因为 所 有 的 变量 值 可 以 通过 其 他 方法 来 得 到 。 程序 中 
的 关键 点 就 是 你 需要 传人 已 知 的 正确 目标 变量 值 和 模型 计算 出 的 目标 变量 值 。 


代码 清单 15-2 ”构建 混淆 矩阵 
BufferedReader in = new 
BufferedReader (new FileReader (inputFile})}).; 

List<String> symbols = new ArrayList<String>{(),，; | 读 入 并 保存 值 
String line = in.readLinel(}).; 
while {line := null) { 

String{[] pieces = line.split{(","); 

1f {isymbols.contains (Pleces[0])) { 
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symbols.add {pieces[0]):; 
} 


line = in.readLinet{).; 
} 
ConfuslionMatrix x2 = new ConfusionMatrix(symbols, "unknown").; 
in = new BufferedReader (new FileReader (inputFile))}),; 二 一 一 对 真实 值 /预测 值 对 计数 
line = in.readLinet{).; 
while (line != null) 1{ 
String[] pieces = line.split!(","),; 
String trueVvalue = pleces[0]; | 输入 中 包括 目标 值 和 模型 输出 值 
String estimatedValue = pieces[1]: 


x2.addIinstance (trueValue, estimatedValue).: 


line = in.readLinet{).; 


} 
System.out.printf{"%s\n\n", x2.toSstring(}))}); 


confusionMatzrix 产 后 的 混 消 矩阵 取决 于 待 比较 的 分 类 需 的 输出 结果 ， 或 者 在 二 值 分 类 下 
也 取决 于 所 选择 的 国 值 。 基 于 混 消 和 矩阵 的 分 类 需要 求 模型 输出 单一 结 末 〈 即 属于 哪个 类 )， 因 为 
此 时 只 有 最 后 的 结果 才 有 作用 , 所 以 这 时 会 丢失 模型 对 输出 结果 的 确信 度 。 当 分 类 需 能 输出 概率 
得 分 值 时 ， 可 以 通过 计算 一 个 称 为 箭 矩阵 的 混 消 矩阵 变 体 来 避免 上 述 的 信息 丢失 。 

与 混 消 矩阵 一 样 ， 炳 和 珑 阵 中 的 每 行 对 应 的 是 实际 的 目标 值 ， 每 列 对 应 模型 的 输出 值 。 区 别 在 
于 , 业 和 矩阵 的 元 素 计算 的 是 每 个 真实 或 估计 类 别 组 合 的 概率 的 平均 对 数值 。 这 里 之 所 以 使 用 平均 
对 数 来 计算 主要 是 受到 概率 分 布 近 似 值 最 优 求 解 的 数学 原理 的 启发。 该 平均 对 数 概 率 表达 的 是 ， 
通过 比较 分 到 某 个 特定 类 别 的 分 类 需 似 然 和 该 类 别 全 面 性 的 普 过 程度 来 得 到 某 个 特定 的 分 类 关 
结果 的 非 正常 程度 。 一 个 好 的 模型 在 对 角 线 上 会 得 到 绝对 值 较 小 的 负数 ,而 非 对 角 线 上 为 绝对 值 
较 大 的 负数 。 这 可 以 类 比 与 混 消 和 矩阵 对 角 线 上 的 较 大 值 和 非 对 角 线 上 的 较 小 值 。 

炉 矩阵 和 对 数 似 然 之 间 有 着 十 分 有 用 的 关联 , 即 炉 矩阵 对 角 线 元 素 的 加 权 平 均值 就 是 对 数 似 
然 。 对 数 似 然 通 常 通过 计算 在 目标 类 别 上 得 分 的 平均 对 数值 来 得 到 。 下 一 市 当中 将 会 进一步 深入 
讨论 对 数 似 然 。 

Auc 同 时 可 以 用 于 计算 混 消 和 矩阵 和 箭 矩阵 ， 但 是 目前 它 仅仅 文 持 二 值 的 目标 变量 值 。 读 者 可 
以 采用 如 下 方法 往 Auc 对 象 中 加 入 数据 并 打印 出 混淆 矩 阵 和 人 和 矩阵 : 


Matrix entropy = xl.entropy!(); 


x2 得 到 真实 结果 和 得 分 什 


for {int 1 = 0; i < entropy.rowSize({(); 1I++) 1({ 
for (int J = 0; Jj < entropy.columnSsSize(}; ]++) { 
System.out.printf("%$10.2f ", entropy.get (1i, J}}):; 


} 
System.out.printf ("\n"),; 
} 


目前 为 止 ，Auc 类 仪 仅 适用 于 二 值 目标 变量 的 情况 。 对 Auc 类 进行 扩展 以 文 持 更 多 的 变量 类 
型 或 许 是 Mahout 未 来 版 本 的 一 个 功能 。 
当 模型 输出 概率 得 分 值 时 , 正确 答 
值 来 自 大 规模 存留 样本 的 平均 ,那么 它 


案 得 分 的 概率 值 能 够 很 好 地 度量 模型 的 好 坏 程 度 。 如 来 该 
能 提供 异型 质量 的 一 个 十 分 有 用 的 单一 度量 指标 。 该 指标 


252 第 15 章 分 类 器 评估 及 调 优 
称 为 平均 对 数 似 然 。 尽 管 有 误解 的 可 能 ， 但 上 述 指标 往往 仍 被 答 称 为 对 数 似 然 。 


15.2.3 ”计算 平均 对 数 似 然 


对 数 似 然 是 基于 对 输出 结果 的 确信 或 非 确信 程度 来 对 模型 进行 评分 的 方法 。 对 数 似 然 要 求 模 
型 输出 一 个 概率 得 分 结 来 。 如 果 模 型 对 错误 结果 给 出 很 低 的 概率 而 对 正确 结 末 给 出 较 高 的 概率 那 
么 模型 就 获得 信用 值 。 对 数 似 然 评 佑 方法 的 一 个 非常 有 用 的 特点 是 , 即使 模型 并 没有 精确 地 得 到 
正确 结果 ,但 是 在 可 能 结 来 的 范围 有 所 限制 时 模型 仍然 得 到 部 分 的 信用 值 。 

对 数 似 然 具 有 一 个 令 人 满意 的 数学 性 质 , 即 如 末 所 用 模型 能 够 精确 复制 目标 变量 的 真实 概 府 
分 布 , 那么 只 能 最 大 化 对 数 似 然 得 分 。 对 数 似 然 和 AUC 可 以 互相 补充 。 对 数 似 然 可 以 用 于 多 值 输 
出 的 情况 ， 而 AUC 仪 能 用 于 二 值 输出 。 为 一 方面 ，AUC 可 以 接受 任 童 类 型 的 得 分 ， 而 对 数 似 然 
要 求 得 分 反映 概率 的 估计 什 。 AUC 的 值 要 求 在 0 到 1 之 间 以 便 对 模型 进行 比较 , 而 对 数 似 然 没有 限 
定 取 值 范围 。 

由 于 不 同样 本 之 间 的 对 数 似 然 相差 很 大 ， 因 此 单个 训练 样本 的 对 数 似 然 值 不 是 特别 有 用 , 但 
是 多 个 样本 上 的 平均 值 很 有 用 。 读 者 可 以 利用 on1ineSsummarizer 来 计算 分 类 器 的 平均 对 数 似 然 
舍 计 值 ， 然 后 汇总 出 这 些 佑 计 值 的 中 位 数 、 平 均 数 和 上 下 四 分 位 数 等 统计 量 。 具 体 做 法 如 下 : 

OnlineSummarizer summarizeLogLikelihood = new OnlineSummarizer(}); 

ier (1ut 1 0Y 3 T0000 1+7) 1 

Example x = Example.readExample{(); 
double 11 = classifier.logLikelihood{x.target, x.features);: 


summarizeLogLikelihood.add {11}).; 
} 


System.out .printft 
*Average log-likelihood = %.2f {%.2f, %S.2f} {25%%-ile,75%%S-ile)\n'", 
summarizeLogLikelihood.getMean{)}), 
summarizeLogLikeiihood.getoQuartilet{1), 
summarizeLogLikelihood.getQuartile{(2))});: 


上 述 代码 首先 读 和 人 样本 然后 计算 分 类 器 的 对 数 似 然 ， 最 后 将 结果 传递 给 onlineSummarizer。 
诈 人 相关 信息 之 后 ， 可 以 利用 getMean () 和 getouartile() 等 方法 来 获得 整个 对 数 似 然 分 布 的 
统计 信息 。 

对 数 似 然 的 最 大 值 为 0， 而 最 小 负 值 却 没 有 限制 。 对 于 精度 非常 高 的 分 类 天 来 说 ， 平 均 对 数 
似 然 的 值 应 该 接近 于 分 类 融 的 平均 正确 泰和 目标 类 别 数 目的 乘积 。 而 对 于 精度 稍 差 的 分 类 需 ,， 特 
别 当 目标 类 别 很 多 的 情况 下 ， 平 均 正 确 率 倾 加 于 0， 此 时 分 类 融 的 比较 相当 困难 。 另 一 方面 ， 对 
数 似 然 能 够 在 分 类 融 很 差 即 分 类 融 很 少 甚 至 从 来 没有 分 对 过 ， 导 致 平均 正确 靳 为 0 的 情况 下 ， 仍 
然 能 够 区 分 分 类 需 的 好 坏 。 

对 于 内 部 开发 者 而 言 ， 对 数 似 然 或 许 是 一 个 不 错 的 模型 比较 方法 , 但 是 当 要 回 非 技术 人 士 展 
示 绪 采 时 ， 采 用 正确 率 甚 至 混 消 和 矩阵 可 能 效 采 更 好 。 

诸如 AUC 和 对 数 似 然 之 类 的 指标 能 够 告诉 我 们 模型 的 总 体 性 能 优 劣 ,但 是 却 无 法 给 出 模型 优 
劣 的 原因 。 为 了 解 这 个 原因 ， 需 要 进入 模型 内 部 对 其 进行 帝 入 齐 析 。 
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15.2.4 ”模型 训 析 


对 模型 进行 次 入 刘 析 是 了 解 哪些 特征 导致 结 采 出 现 较 大 差异 的 途径 之 一 。Mahout 可 以 使 用 
org.apache.mahout.classifier.sgd 包 中 的 ModelDessector 来 对 AbstractVector 
classifier 的 继承 类 进行 剖析 人 处理 。 

我 们 还 记得 ， 作 为 预测 变量 的 特征 必须 要 进行 词 条 化 和 向 量化 处 理 才 能 在 学 习 算 法 中 使 用 。 
这 些 特征 癌 量 属于 模型 理解 所 需要 的 考察 线索 之 一 。ModelDissector 以 一 个 特征 问 量 、 该 特征 
器 量 的 构建 轨迹 和 模型 作为 输入 值 。 然后 对 特征 癌 量 进行 微调 来 观察 结果 的 变化 情况 。 通 过 在 一 
系列 样本 上 求 平均 ， 可 以 确定 不 同 特征 的 效果 。 当 需要 输出 汇总 结果 时 ,ModelDissector 会 返 
回 那 些 变 量 及 其 值 的 列表 ， 这 个 列表 给 出 了 最 大 的 平均 效果 。 

接 下 来 的 代码 片段 给 出 的 是 如 何 利 用 ModelDissector 来 给 出 对 模型 输出 结果 具有 最 大 影 
啊 的 变量 列表 的 过 程 。 第 一 步 是 关闭 模型 使 得 所 有 的 学 习 和 正则 化 过 程 结 束 ， 第 二 步 是 建立 
ModelDissector 及 其 关联 轨迹 词典 。 


model.closet{)}.; 


Map<String, Set<Integer>> traceDictionary = 
new HashMap<String, Set<Integer>>!{).， 
ModelDissector md = new ModelDissector!().: 


encoder.setTraceDictionary (traceDictionary).;} 
一 旦 预备 条 件 就 绪 的 话 ， 就 需要 在 多 个 样 例 上 反复 循环 。 对 于 每 个 样 例 , 需要 消除 轨迹 ， 模 
型 训 析 需要 随 着 特征 回 量 、 轨 迹 和 模型 而 更 新 。 


for {... lots of examples ...) { 


traceDictionary.clearl).: 
Vector Vv = encodeFeatureVector(lexample, actual, leakType); 


md.updatel(v, traceDictionary, model),; 


} 
最 后 ， 可 以 要 求 模 型 神 析 带 输 出 模型 的 特征 名 称 及 其 权重 的 汇总 结果 列表 。 


List<ModelDissector.Weight> weights = md.summary (100}): 
for (ModelDissector.Weight w : weights) { 
System.out .printf ("Ss\t® .1f\n", 
w.getFeature(), w.getWeight()}); 
} 


这 里 的 循环 语句 是 伪 代 码 但 其 余 代 码 都 来 目 实 际 工作 的 代码 。 代 码 的 关键 因素 在 于 编码 当 
中 使 用 了 轨迹 词典 ， 该 词典 记录 的 用 于 后 面 模 型 训 析 的 线索 信息 。 用 户 不 需要 将 很 多 训练 样 例 
放 入 编码 大 中 来 获得 大 量 的 线索 信息 。 一 般 而 言 ， 如 末 有 几 王 或 者 几 万 样 例 ， 基 本 上 应 该 承 可 
以 了 。 

ModelDissector 的 输出 结果 对 于 一 个 表现 很 差 的 模型 的 诊断 很 有 帮助 。 在 一 个 训练 恰 
当 的 模型 中 ， 最 重要 的 变量 及 其 值 应 该 能 锌 该 问题 的 领域 专家 所 理解 。 但 在 一 个 失败 模型 当 
中 更 常见 的 是 ， 最 重要 的 变量 明显 很 充 座 。 在 接 下 来 的 几 广 当中 ,读者 会 看 到 成 功 和 失败 的 模型 


案例 。 
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15.2.5 ”20 Newsgroups 语 料 上 SGD 分 类 器 的 性 能 指标 计算 


14.4 方 利用 SGD 算 法 写 了 一 个 分 类 磊 来 对 20 Newsgroup 语 料 分 类 。 本 市 将 对 上 述 例子 进行 扩 
展 以 集中 关注 分 类 各 的 性 能 评 佑 。 这 里 我 们 会 对 整个 学 习 程 序 连同 性 能 指标 一 起 进行 剖析 ,以 便 
了 人 解 这 些 部 分 如 何 一 起 工作 。 下 几 方 中 ,我 们 会 在 该 例子 中 注入 几 个 典型 的 漏洞 ( bug )， 来 观察 
它们 对 结果 的 影响 。 

下 面 的 代码 清单 给 出 了 在 20 Newsgroups 语 料 上 训练 出 一 个 AdaptiveLogisticRegression 
模型 的 过 程 。 这 个 例子 与 14.4 节 中 的 例子 有 些 类 似 。 


代码 清单 15-3 ”一 个 完整 的 带 过 程 诊断 的 模型 训练 程序 
private static final Analyzer analyZer = 
new StandardAnalyzZer {Version.LUCENE 30).; 
private static final FeatureVectorEncoder encoder = 
new StaticWordVvalueEncoder ("body").; 
private static final FeatureVectorEncoder bias = 
new ConstantValueEncoder ("Intercept").; 


public static void main(String[] args}) throws IOException { 
File base = new Filelargs|[0]); 
int leakType = 0; 
if (args.length > 1) { 
leakType = Integer.parselInt (ardS [ 工 | ) ; 
} 
Dictionary newsGroups = new Dictionary!().; 
encoder.setProbes(2); 


AdaptiveLogisticRegression learningAlgorithm = 下 设 定 较 短 的 生成 时 间 
new AdaptiveLogisticRegression{(20, FEATURES, new L1{(}))}); 
learningAlgorithm.setIinterval (800);} 
learningAlgorithm. setAveragingWindow (S500}).; 
List<File> files = Lists.newArrayList!{(),; 6 为 平均 值 设 定 小 窗口 
File[] directories = base.listFiles!().; 


Arrays.sort (directories, Ordering.usingTostring!()):; 
for {File newsgroup : directories) 1{ 
if (newsgroup.isDirectory()) 1{ 
newsGroups.intern (newsgroup.getName ()).; 
files.addaall (Arrays .asList (newsgroup.1listFiles!())),; 


Collections.shuffle{({files).; 


int k = 0; 8 随机 化 训练 次 序 
for (File file : files}) { 

string ng = file.getPparentFile!() .getName().， 

int actual = newsGroups.intern (ng); 


Vector V = encodeFeatureVectorl(file, actual, leakType); 
learningAlgorithm.train(actual, Vv).; 
K+ 二 +， 


下 


State<AdaptiveLogisticRegression.Wrapper, CrossFoldLearner> best = 
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learningAlgorithm.getBestt{)}.,; 


If (Pest != null && 和 500) { 
CrossFoldLearner model = 
Pest .getPayload(} .getLearnert{}.: 
double averageCorrect = model .percentCorrect{}.; 
double averageLLbL = model.iogLikelihood!{).: 
System.out .printf ("*%d\t$.3f\t®.2f\t%Ss\n', 
k, averageLLb, averageCorrect * 100, leakLabels{[leakType % 3]1): 


} 
} 人 齐 析 最 终 的 最 优 模型 
dissect (newSsGroups, learningAlgorithm, files}.: 


} 

上 面 的 程序 一 开始 对 学 习 算 法 进行 分 配 和 配置 处 理 。 这 里 为 了 简单 起 见 ， 选 择 的 是 
AdaptiveLogisticRegression 算 法 ,使 用 该 算法 不 需要 担心 学 习 参 数 。 如 果 不 介 意 学 习 人 参数 
微调 的 话 , 谈 者 也 可 以 选择 crossFoldqLearnez 和 人 算法。 上 述 程序 为 内 部 的 进化 算法 设置 了 一 个 很 
短 的 生成 时 间 ， 这 是 因为 数据 集 相 对 较 小 算法 可 以 学 习 得 很 快 @。 类 似 地 , 诊断 用 的 平均 窗口 大 
小 也 设置 得 很 短 ， 以 便 能 够 快速 显示 学 习 算 法 的 运行 状况 @。 

在 准备 训练 过 程 时 , 需要 一 个 训练 集中 所 有 文档 的 列表 。 我 们 也 有 可 能 想 对 这 个 列表 进行 随 
机 排序 以 提高 学 习 的 效率 。 为 了 训练 模型 ， 程 序 在 随机 排序 的 文档 列表 上 反复 循环 迭代 全 。 整 个 
训练 过 程 包括 到 向 量 形式 的 转换 以 及 模型 的 实际 训练 。 一 旦 AdaptiveLogisticRegression 中 
的 进化 算法 开始 运行 , 它 将 提供 模型 池 中 最 好 的 模型 。 可 以 利用 该 模型 来 获得 近期 训练 样本 的 平 
均 对 数 似 然 和 正确 率 。 

当 完 成 训练 之 后 ， 可 以 对 模型 进行 训 析 @@。 具 体 的 剖析 过 程 在 如 下 代码 清单 中 给 出 。 


代码 清单 15-4 ”20 Newsgroups 语 料 上 的 模型 剖析 


private static volad dissect (Dictionary newsGroups, 
AdaptiveLogisticRegression learningAlgorithm, 
Iterable<File> files) throws IOException { 


CrossFoldLearner model = | 关闭 模型 以 确定 权重 


learningAlgorithm.getBest{}) .getPayload(}) .getLearner(}):; 
model.closel(}).; 


ModelDissector md = new ModelDissector!(!}; 
Map<String, Set<Integer>> traceDictionary = 
Maps .newTreeMaD 1() : © 提供 轨迹 词典 
encoder.setTraceDictionary (traceDictionary).; 
bias.setTraceDictionary (traceDictionary):; 


for (File file : permte(files, rangd) .subList(0, 500})})} { 
String ng = file.getParentFile() .getName(}).; 
int actual = newsGroups.intern{ng}): 


0 
traceDictionary.clear!().; 

Vector Vv = encodeFeatureVectorl(file, actual, leakType): 

md.update(v, traceDictionary, model}); 


} 


List<String> ngNames = Lists.newArrayList (newsGroups -valuesr ) ) ; 
for (ModelDissector.Weight w : md.summary(100})) { 
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System.out.printf("%s\t%.1f\tSs\tSs\n", w.getFeature(}, w.getwWeight(), 
ngNames .get (w.getMaxImpact() + 1)); 
} 
} 


模型 剖析 时 ,首先 必须 确认 所 有 的 模型 参数 痢 已 经 确定 @。 关闭 一 个 在 线 模型 并 不 能 防止 进 
一 步 的 训练 ， 它 能 够 确认 当前 已 经 拥有 剖析 的 一 致 状态 。 

天 析 中 , 需要 将 特征 编码 到 一 个 称 为 轨迹 词典 的 对 象 中信 。 该 对 象 记录 的 是 哪个 预测 变量 和 
值 分 配 到 特征 向 量 中 的 哪个 位 置 。 这样 做 会 大 大 降低 编码 的 速度 ,因此 并 非常 规 的 做 法 。 通 过 清 
除 每 个 或 每 几 个 样本 的 轨迹 词典 , 可 以 避免 轨迹 词典 在 内 存 中 占据 太 大 空间 全 。 在 对 每 个 样本 编 
人 码 并 且 记 录 特 征 提 取 的 细节 之 后 ， 承 将 细 闻 信息 传 给 模型 副 析 硕 。 

一 旦 处 理 完 一 定量 的 训练 样本 之 后 ， 承 可 以 要 求 醒 型 训 析 融 返 回 最 重要 的 变量 及 其 值 列表 。 
本 例 当 中 返回 的 是 前 100 个 。 


如 末 运 行 这 个 例子 ， 我 们 会 发 现 正 确 率 会 如 图 15-1 所 示 那 样 变化 。 


OO 
lg 


percentcCcorrect() 


0 2000 4000 6000 8000 10000 
训练 样本 


图 15-1 平均 正确 率 随 训练 样本 数 增加 而 增长 的 示意 图 。 上 面 的 灰色 横 线 给 出 了 预期 
的 最 大 结 末 ， 该 结果 来 自 现 有 相关 工作 中 所 报告 的 最 优 结 


如 末 对 图 15-1 的 数据 进行 多 篇 扫描 ， 实 际 的 性 能 可 能 会 在 中 间 80% 那 段 接近 当前 最 优 水 平 。 
对 数据 进行 多 过 扫 措 不 会 像 先前 在 未 知 的 额外 数据 上 训练 时 那样 使 模型 有 大 幅 提升 , 这 是 因为 同 
一 数据 的 多 过 扫 拉 没有 市 来 训练 数据 多 样 性 的 变化 。 邓 运 的 是 , 基于 Mahout 的 分 类 当中 永远 都 不 
必 担 心 样本 太 小 , 这 是 因为 Mahout 之 所 以 出 名 的 最 大 原因 束 是 能 够 处 理 大 数据 集 。 当 然 对 数据 进 
行 多 过 扫描 仍然 可 以 提 蜗 模型 的 性 能 ， 因 为 每 一 这 扫 描 系 统一 定 程度 上 都 在 学 习 。 

下 面 给 出 了 一 个 模型 剂 析 后 的 典型 运行 结 末 ， 该 结 末 与 图 15-1 有 点 类 似 。 下 面 各 列 分 别 是 特 
征 名 称 〈 这 里 用 的 是 单个 词语 和 该 特征 的 最 大 权重 和 在 该 权重 下 的 目标 变量 值 。 
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body=space 2.1 Sci.sSpace 

body=sale 1.9 misc.forsale 

body=car 1.9 rec.autos 
body=windows 1.8 COmMP .oS .mS-windows .misc 
body=mac 1.7 comp.sys.mac.hardware 
body=bike 1.7 rec.motorcycles 
body=apple 1 Comp.sys.mac.hardware 
body=gun 工 .5 talk.politics.guns 
body=basebali 二 .号 rec.sport.baseball 
body=graphics 1.5 Comp.graphics 
body=key 工 .5 Sci.crypt 

body=x ].4 COMP .Windows .Xx 
body=dod ].4 rec.motorcycles 
body=orbit 1] .4 SC1i .Space 
body=clipper 1.4 sci.crypt 
body=encryption 1.3 sci.crypt 

body=window 由 3 COMD .WINdOWwWS .XxX 
body=image 1.2 compP .graphics 
body=hockey 1] .2 rec.sport.hockey 
body=atheists | .2 alt.atheism 


这 些 特征 显然 相当 合理 ， 只 有 单词 dod 可 能 有 点 意外 。 该 单词 显然 是 rec.motorcycles 
Usenet 讨 论 组 的 一 个 特征 。 考 察 训 练 文 本 会 发 现 一 个 有 趣 的 现象 ， 有 一 篇 长 贴 ， 它 反复 将 dod 作 
为 无 意义 词 使 用 ,如 果 这 个 词 的 生命 周期 很 短暂 的 话 , 该 特征 可 能 对 于 将 来 的 性 能 没有 什么 帮助 ， 
但 至 少 也 不 会 有 什么 坏处 。 

迄今 为 止 , 我 们 已 经 了 解 了 如 何 衡量 分 类 器 “好 ”的 程度 。 留 给 我 们 做 的 是 理解 这 些 指标 的 
含义 。 接 下 来 我 们 介绍 在 性 能 指标 计算 中 可 能 出 现 的 典型 问题 以 及 如 何 诊 断 并 解决 这 些 问 题 。 
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使 用 实际 数据 和 实际 分 类 需 时 ， 几 乎 可 以 肯定 的 是 , 初始 的 建 模 尝 试 会 失败 ， 有 时 甚至 会 很 
惨烈 。 与 通常 的 软件 工程 不 同 ， 模 型 的 失败 通常 并 不 像 上 废弃 的 空 指针 或 内 存 淤 出 异常 那么 明显 。 
与 此 相反 , 一 个 失败 的 模型 可 能 会 输出 异常 精确 的 结 采 。 这样 的 模型 同时 也 会 输出 错误 率 很 高 的 
结 采 ，,， 看 上 去 模型 不 太 对 尖 。 如 采 发 现 ， 特别 在 模型 构建 的 初期 , 分 类 各 的 结 采 极端 精确 或 者 糟 
糕 ， 那 么 这 一 结 末 应 该 多 少 值得 怀疑 ， 这 一 点 相当 重要 。 

本 市 将 利用 前 面 介 绍 过 的 技术 , 帮助 谈 者 理解 性 能 指标 如 何 帮助 了 解 在 分 类 需 生 命 周期 中 的 
各 种 “ 石 徐 碰 碰 ”。 为 实现 这 一 点 ， 谈 者 必须 了 解 分 类 硕 中 的 币 见 问题 以 及 这 些 问题 如 何 通 过 性 
能 指标 来 体现 。 

分 类 条 模 型 构建 过 程 中 的 两 个 最 普遍 的 问题 称 为 目标 泄漏 〈target leak ) 和 特征 提取 月 湿 
( broken feature extraction )。 当 训 练 数据 的 某 个 特征 在 某 种 程度 上 是 目标 变量 提供 的 信息 在 生产 环 
境 中 并 不 出 现 的 , 那么 就 称 为 发 生 了 一 次 目标 泄漏 。 此 时 的 分 类 希 就 相当 于 上 自己 出 题 考 试 然 后 提 
交 解 答 一 样 , 不 出 意外 , 这 种 情况 下 分 类 硕 可 以 取得 很 好 的 效 采 。 这 类 问题 的 出 现 可 能 相当 隐蔽 ， 
使 其 很 难 被 发 现 。 如 果 不 出 现 灾难 性 的 结果 , 很 差 的 特征 提取 也 很 难 检测 出 来 。 下 面 几 市 将 考察 
上 述 两 类 问题 的 案例 。 
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15.3.1 目标 泄漏 


目标 泄漏 是 由 于 目标 变量 的 信息 包含 在 用 于 训练 分 类 器 的 预测 变量 中 而 带 来 的 漏洞 。 目 标 池 
漏 的 一 个 最 主要 的 征兆 是 结果 的 性 能 好 得 难以 置信 。 

为 帮助 读者 理解 如 何 避 免 目标 泄漏 ， 我 们 可 以 在 代码 清单 15-3 的 20 Newsgroups 分 类 代码 中 有 意 
地 插入 一 个 目标 泄漏 。 具 体 地 , 我 们 可 以 对 程序 进行 简单 的 修改 , 在 训练 样本 中 增加 一 个 目标 泄漏 ; 


private static final SimpleDateFormat ("MMM-yyyy'").; 
// 1997-01-15 00:01:00 GMT 
private static final long DATE REFERENCE = 853286460; 


long date = {long) (1000 * 

{(DATE REFERENCE + target * MONTH + 1 * WEEK * rand.nextDouble{(})})}; 
Reader dateString = new StringReader (df .format (new Date (date))).; 
countWords (analyzZer, words, dateSstring)}).; 


和 以 前 不 一 样 的 是 , 这 里 的 代码 在 数据 的 日 期 字段 注入 了 一 个 目标 泄漏 。 选 择 日 期 字段 可 以 
使 得 来 自 同 一 新 闻 组 (Newsgroup ) 的 文档 看 上 去 都 出 目 同 一 月 份 ， 而 不 同 新 闻 组 (Newsgroup ) 
的 文档 出 目 不 同月 份 。 日期、 时 间 和 ID 号 人 码 都 是 常见 的 目标 泄漏 源 , 但 我 们 可 以 选择 其 中 的 任意 
一 个 。 甚 至 是 目标 变量 本 喘 都 可 能 偶然 地 包含 在 预测 因子 中 。 正 如 我 们 所 料 的 那样 ， 这 种 错误 是 
一 切 目标 泄漏 的 根源 。 

当 训 练 硕 有 上 述 目 标 泄漏 的 模型 时 ,模型 的 精度 会 变 得 相当 好 。 图 15-2 给 出 了 此 时 模型 的 运 
行 结 末 。 可 以 看 到 ， 当 目标 泄漏 仅 和 主题 行 一 起 出 现时 ， 精 度 可 以 达到 100%。 这 人 么 高 不 太 现实 ， 
而 目前 相关 研究 工作 中 报道 的 最 高 值 大 概 在 86% 左 右 。 当 把 目标 泄漏 加 到 从 标题 行 和 消息 体 的 所 
有 文本 中 时 ， 学 习 算法 会 运行 更 长 的 时 间 ， 但 是 不 久 仍 然 会 获得 一 个 不 可 思议 的 高 精度 。 
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从 图 15-2 的 结果 可 以 看 出 , 代表 包含 目标 泄漏 的 两 条 线 很 快 都 能 达到 100% 的 精度 。 对 于 这 个 
问题 来 说 ， 这 种 极端 的 精度 不 可 信 。 另 一 方面 , 不 带 漏 洞 的 SGD 模 型 只 能 刚刚 达到 该 问题 在 相关 
工作 中 的 最 优 值 。 此 时 的 性 能 水 平 不 仪 很 好 ， 而 且 可 信 。 

当面 对 实际 数据 而 不 是 大 家 认真 人 研究 过 的 研究 数据 时 ,不 可 能 从 一 开始 就 知道“ 过 好 ”到 瓜 
是 多 好 。 如 采 模 型 表现 得 异常 好 ,或 者 如 果 在 新 数据 的 表现 显 阁 差 于 交叉 检验 的 预测 结果 ,那么 
就 值得 观察 一 下 ModelDissector 的 输出 结 

下 面 给 出 的 是 对 上 述 某 个 存在 目标 泄漏 的 例子 进行 模型 剖析 的 前 些 行 的 结 末 ,其 中 每 一 列 分 
别 达标 词 项 、 权 重 和 权重 对 应 的 新 闻 组 。 


body=feb-1998 
body=dec-1997 
body=sep-1997 
body=mar-1998 
body=jul-1997 
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body=jul-1998 
body=jun-1998 
body=mar-1997 
body=apr-1997 
body=jan-1998 
body=nov-1997 
body=may-1997 
body=feb-1997 
body=aug-1998 
body=may—-1998 
body=oct-1997 
body=gun 
body=aug-1997 
body=windows 
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sci.electronics 

Comp .graphics 

scC1.med 

COmP .Sys.mac.hNnardware 
talk.religion.misc 
misc.forsale 
rec.motorcycles 
talk.politics.misc 
CoOmP.os.ms-windows.misc 
Scli.space 
talk.politics.guns 
Soc.religion.christian 
Comp .SYS .ibm.pcec.hardware 
COMP .WINdOWS .xX 
rec.sport.baseball 
alt.athelism 

rec.autos 
rec.sport.hockey 
talk.politics.gquns 
Sci.crypt 
ComP.o0os.ms-windows.misc 


body=consciously ee sci.electronics 
body=taber ee sci.electronics 
body=uw.pc.general sci.electronics 
body=hearing 由 SC .meaQ 

body=car Ls rec.autoses 
body=sdennis@osf.org 1 ， misc.forsale 
body=1024x768x24 1. comp.graphics 
body=contradicts ] talk.religion.misc 
body=market 和 GomPD .GraphLcg 
body=passes 有 misc.forsale 
body=att-14,796 1. talk.religion.migsc 
body=bars 1.7 sci.med 


从 上 面 的 结 采 可 以 看 出 , 权重 最 大 的 那些 特征 基本 都 是 日 期 。 除 了 标志 大 规模 季节 变化 的 日 15 
期 特征 如 圣诞 节 之 外 , 其 他 日 期 特征 几乎 痢 不 太 可 能 很 有 效 地 预测 主题 。 而 这 里 几乎 所 有 的 前 20 
个 特征 都 是 特定 日 期 , 这 完全 无 法 令 人 相信 ， 因 此 唯一 的 合理 结论 就 是 这 些 特征 代表 了 某 个 日 标 
汇 疾 。 当 然 ， 这 里 我 们 有 意 地 注入 了 一 个 目标 泄 洗 ， 因 此 找到 一 个 漏洞 完全 不 会 令 人 意外 。 

为 一 方面 , 我 们 也 可 以 通过 细微 考察 排名 徘 前 的 非 漏洞 特征 来 发 现 问题 。AdqaptiveLogistic 
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Regression 通 过 调 市 学 习 率 来 对 性 能 进行 优化 。 在 存在 日 标 泄 疡 的 情况 下 ， 该 算法 的 一 个 好 处 
就 是 一 旦 发 现 漏洞 特征 就 会 很 快 降低 训练 学 习 率 。 同样 , 其 他 无 关 特 征 的 权重 就 会 被 冻结 而 不 会 
像 正常 模型 为 获得 好 的 性 能 那样 将 权重 降低 到 0。 因 此 ， 我 们 会 发 现 taber、market、passes 及 bars 
等 词 都 分 别 被 列 为 sci .electronics、 comp.graphics、 misc.forsale 和 和 sci. med 等 类 别 的 
高 权重 特征 。 这 些 特征 在 最 终 模 型 中 的 存在 也 表明 学 习 率 在 没有 正当 调整 之 前 被 冻结 。 


15.3.2 ”特征 提取 月 演 


男 一 个 第 见 的 问题 是 特征 提取 部 分 在 某 种 程度 上 发 生 朋 尝 。 和 目标 泄漏 导致 性 能 异常 好 不 
特征 提取 月 淡 会 导致 性 能 远 低 于 预想 值 。 
下 面 的 代码 给 出 的 是 Lucene 词 条 化 工具 如 何 对 20 Newsgroups 数 据 进 行 词 条 化 处 理 的 过 程 . 
Tokenstream ts = analyzer.tokenSstream!{'"'text'", in).; 
ts.addAttribute (TermAttribute.class), 
while {ts.incrementToken{})} { 

String s = ts.getAttribute{TermAttribute.class) .term(); 


words.add{s}).: 


} 
一 个 很 容易 犯 的 错误 就 是 使 用 s = ts .toString () 而 不 是 上 述 正确 的 term() 调 用 来 获取 文 
本 词 条 ， 尺 管 后 者 有 些 星 深 。 如 果 犯 了 这 个 错误 的 话 ， 那么 词 条 化 之 后 在 词 条 中 就 会 保留 额外 的 
言 恩 从 而 导致 在 不 同位 置 上 的 相同 词 霹 却 看 上 去 像 两 个 词 。 这 使 得 预测 变量 党 到 影响 , 从 这 些 变 
量 来 学 习 ， 就 算 不 是 不 可 能 也 会 十 分 困难 。 
图 15-3 给 出 了 当 存 在 词 条 化 错误 时 性 能 上 可 能 表现 出 的 结果 。 正确 率 从 没 比 5% 高 多 少 , 当然 
也 就 是 说 模型 的 结果 可 能 是 随机 选择 的 结 
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图 15-3 ”存在 词 条 化 错误 的 系统 性 能 从 不 超过 茶 个 随机 选择 系统 的 预想 水 平 。 灰 线 给 
出 的 是 随机 选择 情况 下 的 预计 性 能 
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由 于 所 有 输入 数据 都 因 词 条 化 错误 而 骨 演 ,模型 没有 信息 可 用 于 产生 好 的 结果 ,所 以 上 述 例 
子 十 分 极端 。 实际 中 ,更 普 衣 的 情况 是 某 些 字 有 段 朋 演 而 其 他 的 都 还 好 。 如 果 朋 演 字 段 对 模型 有 帮 
助 ， 那 么 这 种 部 分 的 骨 演 情况 会 导致 性 能 的 降低 , 但 是 此 时 的 性 能 曲线 不 一 定 就 像 图 15-3 那 样 平 
坦 ， 这 是 因为 未 朋 尝 的 字段 仍然 承载 7 一 定 的 信息 。 

发 现 上 述 问题 的 最 好 方法 是 计算 系统 中 值 的 汇总 统计 信息 。 如 果 值 是 连续 的 ， 就 利用 
onlineSummarizer 来 检查 均值 、 最 小 值 、 最 大 值 和 四 分 位 数 。 这 些 数 值 应 该 看 上 去 合理 。 对 类 
别 型 、 单 词 型 和 文本 型 数据 ， 我 们 应 该 计算 出 词 条 的 数目 并 在 对 数 - 对 数 坐 标 轴 上 画 出 数目 和 排 
名 之 间 的 关系 图 。 对 于 20 Newsgroups 数 据 来 说 , 我们 可 能 会 得 到 类 似 图 15-4 的 结果 。 对 于 单词 型 
和 文本 型 数据 ， 对 每 个 字段 可 能 会 出 现 类 似 的 结果 。 而 在 上 述 注 入 词 条 化 错误 的 情况 下 ,基本 上 
所 有 的 词 项 频率 都 正好 是 1。 


数目 


100 


10 


1 100 10000 


排名 


图 15-4 在 20 Newsgroups 数 据 上 一 个 正确 词 条 化 工具 处 理 下 的 词 条 数目 与 排名 之 间 的 
关系 图 。 在 词 条 化 工具 月 沉 时 ， 可 能 所 有 的 词 项 数目 都 是 1 


表 15-4 给 出 了 一 些 当 加 入 insertTokenError 时 产生 的 错误 词 条 , 同时 也 给 出 了 相应 的 正确 
词 条 。 记 住 这 里 的 所 有 的 插 写 、 带 号 和 数字 都 是 错误 词 条 的 一 部 分 。 


表 15-4 ”错误 词 条 导致 特征 提取 裔 省 的 例子 


彰 误 词 条 正确 词 条 
(term=elastic,startOffset=1705,endOffset=1712,...) elastic 
(term=elastic,startOffset=2064,endOffset=2071,...) elastic 
(term=failed,startOffset=1236,endOffset=1242,...) failed 
(term=failed,startOffset=245,endOffset=251,...) falled 


(term=failed,startOffset=974,endOffset=980,...) failed 
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从 表 15-4 可 以 看 出 ， 如 果 因 为 朴 忽 对 于 同一 词 条 保留 了 太 多 的 信息 会 使 得 该 词 条 重复 多 次 ， 
而 且 每 次 看 上 去 是 不 同 的 词 条 。 这 种 情况 会 使 得 这 些 错误 词 条 对 于 分 类 来 说 几乎 没 用 , 这 是 因为 
在 另外 一 篇 文档 中 出 现在 同一 位 置 几乎 不 太 可 能 。 

到 现在 为 止 , 我 们 知道 诸如 目标 泄漏 和 衣 泪 的 特征 提取 之 类 的 问题 都 会 使 得 分 类 器 失效 ,下 
面 我 们 转向 一 个 更 乐观 的 话题 ， 即 如 何 利用 评估 来 调整 和 优化 分 类 器 以 提高 其 性 能 。 


15.4 分 类 器 性 能 调 优 


除了 纠正 训练 数据 上 的 错误 之 外 , 还 有 很 多 方法 可 以 提高 分 类 骨 的 性 能 。 这 些 方法 包括 通过 
改变 问题 本 刁 来 使 分 类 融 分 类 更 容易 。 其 他 方法 还 包括 使 得 分 类 带 在 给 定数 据 上 运行 性 能 更 优 。 
第 一 种 情况 下 ， 有 可 能 可 以 找到 新 的 预测 变量 、 预 测 变 量 的 组 合 或 转换 结果 来 帮助 提高 分 类 天。 
为 一 种 可 能 是 去 除 那 些 对 分 类 没有 带 助 的 预测 变量 或 者 对 目标 变量 进行 傈 化 。 第 二 种 情况 下 ,可 
以 在 学 习 算 法 中 调整 学 习 率 或 者 特征 编码 宋 略 。 

任 一 情况 下 ， 当 对 分 类 融 进 行 调整 时 ,一 定 要 对 修改 前 后 的 性 能 进行 仔细 和 真实 的 度量 。 如 
末 所 做 的 修改 导致 的 性 能 差异 不 是 特别 显著 的 话 ， 只 检查 一 些 常 规 的 样本 往往 并 不 够 。 实 际 上 ， 
一 旦 系统 在 合理 运行 , 大 部 分 调整 都 只 会 导致 性 能 的 轻微 提高 或 降低 ， 而 这 些 性 能 的 变化 只 能 通 
过 精确 的 测量 才能 发 现 。 


15.4.1 问题 调整 


一 提 到 分 类 系统 的 幸 整 , 大 部 分 人 都 会 马上 想到 调整 学 习 算 法 以 尽 可 能 地 提高 精确 度 。 然 而 ， 
这 种 想法 可 能 会 因为 错过 最 佳 的 机 会 而 带 来 及 烦 。 通 笛 而 言 , 最 大 的 提高 来 目 对 问题 本 身 的 调整 。 
这 包括 输入 、 输 出 的 改变 甚至 对 输出 解释 的 改变 。 

1. 剔除 无 价值 的 变量 

有 些 变 量 对 于 分 类 带 帮 助 不 大 甚至 蝶 无 作用 ， 因 此 将 这 些 变 量 从 分 类 表 中 曙 除 可 能 会 更 好 。 
有 点 看 似 反 笛 的 是 , 去 除 这 些 信息 之 后 由 于 可 以 使 得 学 习 算 法 集中 在 更 少 的 变量 上 , 因此 可 以 在 
有 效 训练 时 间 内 学 到 更 好 的 模型 来 提高 分 类 精度 。15.4 下 中 给 出 的 目标 泄漏 的 例子 就 是 这 个 现象 
的 很 好 的 一 个 例子 。 在 该 例 当 中 ， 当 目标 汇 汤 周围 有 很 多 文本 时 , 学习 算 法 花 了 很 多 的 时 间 来 学 
习 这 些 并 不 重要 的 目标 泄漏 模型 。 反 之 ， 也 可 以 次 这 些 漏 洞 变量 目 己 分 散 了 学 习 算法 的 注意 力 ， 
阻碍 它 去 关注 那些 在 主题 和 文本 主体 部 分 真正 有 价值 的 变量 。 

正则 化 是 上 述 思 路 的 一 个 更 一 般 的 版 本 。 正则 化 是 通过 降低 茶 些 变量 的 影 啊 甚 至 完全 剔除 这 
些 变 量 来 避 倪 过 拟 合 的 一 种 数 竺 技术。 它 通过 同时 最 小 化 学 习 算 法 的 错误 和 模型 复杂 上 度 来 实现 。 
在 Mahout 的 术语 中 ， 对 复杂 度 进行 德 词 的 数学 函数 称 为 先 验 ( prior )。 

诸如 正则 化 SGD 之 类 的 算法 试图 通过 惩罚 模型 中 变量 的 引入 来 去 除 一 些 可 能 的 变量 。 在 其 他 
条 件 都 相同 的 情况 下 ， 这 些 算法 倾 癌 于 不 包含 变量 。 即 便 如 此 ， 要 了 解 哪些 变量 可 以 史 除 ， 这 些 
算法 也 需要 花费 一 定 的 时 间 。 如 末 误 析 模 型 时 发 现 菏 些 变 量 从 未 在 模型 中 涉及 , 那么 将 这 些 变量 
别 除 可 能 有 利于 加 速 后 续 的 训练 过 程 。 类 似 地 , 不 允许 使 用 菏 些 类 型 的 变量 之 后 会 得 到 的 新 的 模 
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型 的 版 本 ， 对 这 些 版 本 进行 测试 非常 有 用 。 

通过 别 除 那些 不 携 市 信息 的 变量 , Mahout 中 的 其 他 分 类 帮 算 法 ( 如 朴 系 贝 叶 斯 和 补充 朴 系 贝 
叶 斯 ) 能 够 获 益 更 大 ， 这 是 因为 这 些 算法 本 二 无 法 通过 正则 化 来 史 除 这 些 变 量 。 

有 一 种 情况 相对 比较 普遍 ,就 是 别 除 两 个 变量 中 的 一 个 没有 任何 变化 , 但 是 如 末 同 时 列队 两 
个 会 导致 性 能 显著 下 降 。 还 有 可 能 是 单独 使 用 某 个 特定 变量 跟 做 出 随机 决定 的 结果 差不多 。 如 果 
你 觉得 这 个 变量 对 性 能 影 啊 微 乎 其 微 的 话 , 那 就 把 它 剔 除了 吧 。 但 是 有 时 候 即 使 该 变量 单独 使 用 
时 看 上 去 没有 任何 预测 力 , 但 是 能 够 提高 其 他 变量 的 预测 性 能 。 保 守 的 说 , 删除 任何 一 个 没有 出 现 
在 最 终 模型 剖析 中 的 变量 可 能 都 会 溃 来 正面 影响 ,但 是 对 于 其 他 情况 还 是 要 具体 问题 具体 分 析 。 

2. 增加 新 的 变量 、 交 互 和 导出 值 

构建 一 个 分 类 系统 时 , 有 些 数据 比 其 他 数据 更 容易 转换 成 可 用 格式 。 数据 准备 过 程 中 的 困难 
将 会 导致 学 习 算 法 所 需要 的 预测 变量 交付 时 间 的 延迟 。 相 反 地 ,， 有些 变量 可 能 会 早 于 其 他 变量 
用 。 在 大 型 项 目 中 , 某 些 预测 变量 交付 的 延迟 时 间 很 容易 就 会 上 升 到 数 周 或 者 数 月 ,而且 有 些 预 
测 变量 很 可 能 会 被 证 明 是 无 法 获得 的 。 

上 述 延 运 的 潜在 可 能 性 也 意味 着 , 无论 有 什么 可 用 数据 ， 建 模 和 评估 过 程 都 要 早点 开始 。 一 
件 常常 发 生 的 事情 就 是 初始 可 用 的 预测 变量 已 经 足以 构建 一 个 可 部 普 的 模型 ,即使 早期 的 模型 在 生 
产 中 可 用 ， 须 外 变量 也 可 能 会 提高 系统 的 系统 ， 因 此 它们 一 旦 可 用 ， 我 们 需要 尽早 对 其 进行 测试 。 

男 一 个 常见 的 新 变量 来 源 是 对 现存 的 连续 变量 的 变形 ,将 原始 值 的 对 数值 或 者 平方 什 加 入 到 
系统 中 是 值得 的 。 广义 的 线性 模型 ( 如 Mahout 中 基于 SGD 的 模型 ) 可 以 从 这 项 拉 术 中 获 益 ， 如果 
不 这 样 做 的 话 , 它们 就 只 能 关注 预测 变量 和 类 别 之 间 的 线性 关系。 大 部 分 基于 树 的 模型 不 会 注音 
到 这 种 对 连续 变量 变形 市 来 的 差异 。 

下 面 给 出 了 对 TrainingExample 对 象 进行 查询 来 获取 行 数 的 例子 ， 之 后 行 号 采用 三 种 不 同 
的 方式 编码 : 


FeatureValueEncoder lineEncoder = 


new ConstantValueEncoder{"]lines'").; 
FeatureVa Ue oe OgL1 Nooo 注意 名 称 变化 
new ConstantVvalueEncoder{"]og(lines)}'").; 人 2 
FeatureValueEncoader lineSgquaredEncoder = 
new ConstantValueEncoder ("lines^2"). 
for (TrainingExample example : trainingData) { 
Vector Vv = new RandomAccessSparseVector(S50000).;， 
double lines = example.getLines!{().: 
lineEncoder.addToVvector((byte[]) null, lines, Vv).; 
logLineEncoder.addToVvector((byte[]) null, Math.log(lines), v); 
JjineSaquaredEncoder.addToVector({byte[]) null, Jines * lines, Vv).: 


) 

通过 对 行 数 用 多 种 方式 转换 变形 ， 可 以 得 到 一 个 很 容易 具有 多 类 推理 能 力 的 模型 。 例如, 通 
过 包含 原始 价格 和 出 售 价格 的 对 数值 , 模型 可 以 访问 商品 的 折扣 率 。 而 如 末 不 转换 原始 价格 和 出 
售 价格 , 能 够 得 到 的 只 是 绝对 的 折扣 金额 而 不 是 原始 价格 的 茶 个 比值 。 到 压 哪 种 变形 更 好 事先 很 
难说 ， 因 此 让 学 习 算 法 日 己 选 择 可 能 是 一 个 非常 好 的 思路 。 
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将 变量 的 多 个 变形 加 入 到 朴 系 贝 叶 斯 模型 中 没有 意义 , 这 是 因为 朴 系 贝 叶 斯 只 接受 类 别 型 或 
文本 型 输入 。 这 些 变 量 已 经 编码 成 二 值 数 子 ， 而 对 二 值 变 量 进行 变形 基本 没有 任何 意义 。 

交互 变量 ( interaction variable ) 是 其 他 变量 的 组 合 ， 它 们 是 分 类 各 的 男 一 力量 源 果 。 例 如 ， 
在 一 个 市 场 应 用 中 ,将 性 别 和 品牌 组 合成 交互 变量 可 能 效果 会 很 好 。 如果 没有 这 个 交互 变量 的 话 ， 
模型 可 能 会 推导 出 女人 比 男人 对 赠品 更 有 或 更 没有 反应 ， 或 者 某 个 具体 品牌 更 受 或 者 更 不 受 欢 
迎 。 然 而 ， 当 使 用 性 别 和 品牌 组 合 在 一 起 的 交互 变量 时 , 模型 可 以 推出 某 个 特定 品牌 更 受 或 更 不 
受 男人 或 女人 欢迎 。 由 于 不 同 广 商会 对 其 品牌 进行 专业 化 处 理 来 吸引 不 同 的 细 分 市 场 , 所 以 上 述 
变量 十 分 有 效 , 这 一 点 并 不 意外 。 通过 散 列 特征 表示 , 交互 变量 可 以 使 用 类 似 如 下 的 代码 来 加 入 : 
LuceneTextValueEncoder authorEnc = new LuceneTextValueEncoder ("author").:; 
LuceneTextValueEncoder subjectEnc = new LuceneTextValueEncoder ("subiject"),; 


FeatureVectorEncoder authorPlusSubjectEnc = 
new InteractionValueEncoder{("author _ subject", author, subiject):; 


for (TrainingExample example : trainingData} { 
Vector Vv = new RandomAccessSparseVector{50000); 
String author = example.getAuthor!()}; 
String subject = example.getsubjectt{).; 
authorEnc.addToVvector(author, 1, v); 
subjectEnc.addToVvector(subject, 1, Vv);: 
authorPlusSubjectEnc.addToVector{tauthor, subiject, 1, v); 
a 
这 里 , 通过 引用 作者 编码 偶 authorEnc 和 主题 文本 编码 硕 subjectEnc 建 立 了 一 个 交互 变量 编 
码 髓 authorPlusSubjectEnc。 包 含 作者 名 和 主题 行 的 字符 串通 过 作者 、 主 题 以 及 它们 的 组 合 变 
量 来 编码 。 交互 变量 代表 的 不 止 是 作者 和 主题 , 还 包括 它们 相关 联 的 事实 , 这 区 别 于 为 一 个 作者 使 
用 本 主题 或 者 该 作者 讨论 一 个 男 外 的 主题 。 这 允许 分 类 可 同时 基于 作者 和 主题 来 进行 差异 判别 。 如 
条 不 同 用 户 使 用 同一 文本 来 表示 不 同意 义 ， 那 么 如 采 不 使 用 上 述 交 互 变 量 就 无 法 学 习 到 正确 含义 。 
然而 利用 交互 变量 , 模型 就 可 以 将 不 同 的 意义 归功 于 几乎 相同 的 词语 , 这 取决 于 它们 的 上 下 文 。 此 
外 ， 由 于 同时 包含 了 独立 的 作者 和 主题 的 编码 右 ， 模 型 也 能 不 依赖 于 作者 学 到 主题 行 的 音义。 
交互 变量 十 分 强大 , 但 是 它们 会 显著 增加 分 类 需 的 复杂 度 , 使 得 特征 编码 和 学 习 过 程 显著 变 
慢 。 由 于 每 个 训练 样本 的 特征 数目 都 显著 增加 ， 这 种 做 法 也 有 可 能 导致 精度 的 下 降 。 
另 一 种 对 已 知 变量 进行 变形 的 做 法 是 对 一 部 分 训练 数据 聚 类 ， 比 如 使 用 类 似 k-means 算 法 对 
多 个 预测 变量 进行 聚 类 。 这 种 聚 类 会 导致 一 个 新 的 预测 变量 ， 即 对 每 一 部 分 数据 而 言 ， 它 的 复 是 
一 个 类 别 型 特征 。 
类 似 地 , 我 们 可 以 构建 一 个 分 类 需 模 型 ， 然 后 将 该 分 类 需 的 输出 结 末 用 作 另 一 模型 的 预测 变 
量 。 其 思路 是 , 第 一 个 模型 会 学 习 问 题 的 大 致 轮廓 ， 而 级 联 的 第 二 个 模型 可 以 学 习 如 何 纠正 第 一 
个 模型 的 错误 。 下 面 给 出 了 上 述 做 法 的 一 个 代码 示例 : 
AbstractVectorClassifier subModel = 
ModelSerializer.readBinary (new FileReader ("sub-model .model'"), 


OniineLogisticRegression,.class),; 
ConstantValueEncoder subModelEnc = new ConstantValueEncoder("sub"}. 
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for {TrainingExample example : trainingData) { 
Vector vi = new RandomAccessSparseVector{({S0000); 
. encode features for subModel ... 
Vector v2 = new RandomAccessSparseVector(50000).， 
double subScore = subModel .classifyScalar (vil).,; 
subModelEnc{(byte[]) null, subScore, v2);，: 


. encode other features ... 


. train model ... 


} 

这 里 我 们 假设 第 一 个 模型 已 经 训练 好 并 放 在 文件 submodel.model 中 。 于 是 ， 在 训练 第 二 个 模 
型 时 ,我 们 构建 一 个 特征 向 量 作为 第 一 个 模型 的 输入 ,然后 运行 第 一 个 模型 得 到 一 个 得 分 ,该 得 
分 被 用 作 第 二 个 模型 的 特征 。 


15.4.2 分 类 器 调 优 


除了 改变 提供 给 分 类 融 学 习 算 法 的 数据 之 外 , 也 可 以 对 算法 本 身 或 者 算法 的 定义 参数 进行 修 
改 。 演 试 这 些 方 法 的 好 处 在 于 提供 了 多 种 方法 通过 有 指导 的 反复 试验 来 提 高 系统 性 能 。 

1. 尝试 其 他 算法 

尝试 使 用 不 同 的 分 类 带 算 法 来 看 看 到 底 哪个 结果 最 好 , 这 一 点 十 分 重要 。Mahout 文 持 朴 素 贝 
叶 斯 、 补 充 朴 系 贝 叶 期 和 SGD 算 法 ， 除 此 之 外 ,还 有 随机 和 森林 和 文 持 问 量 机 (SVM ) 的 实验 版 本 
可 用 。 

除了 修改 整个 分 类 模型 之 外 , 还 可 以 在 保持 模型 的 同时 修改 学 习 算法 。 具 体 地 , 基于 SGD 的 
分 类 融 可 以 通过 使 用 crossFoldLearner 交 叉 测 试 或 者 能 够 目 动 调节 很 多 学 习 人 参数 的 
AdaptiveLogisticRegtession 来 运行 低层 学 习 算 法 。 也 可 以 从 对 数 似 然 、AUC 或 者 这 些 指 标 
的 混合 指标 中 选择 学 习 算 法 的 优化 目标 。 

我 们 可 以 基于 性 能 、 训 练 时 间 和 分 类 速度 对 不 同 的 算法 进行 比较 。 例 如 ,可 以 使 用 朴素 贝 叶 
斯 两 个 版 本 的 算法 和 AdqaptiveLogisticRegression。 如 果 精 度 好 的 模型 不 止 一 个 的 话 ， 就 基 
于 它们 与 系统 其 余部 分 的 融合 好 坏 来 选择 其 中 一 个 算法 。 

2. 调整 学 习 算法 

当 具 体 使 用 SGD 的 低层 学 习 算法 时 , 有 很 多 开关 选项 可 以 打开 或 关闭 来 获得 不 同 的 结果 。 当 
构建 AdaptiveLogisticRegression、 CrossFoldLearner 或 者 OnlineLogisticRegression 


时 ， 大 部 分 参数 的 配置 方法 都 很 类 似 。 这 些 方法 概括 在 表 15-5 中 。 


表 15-5 SGD 学 习 类 中 的 配置 方法 
在 线 Logistic 回 归 ”交叉 折 和 又 学 习 器 。 自 适 应 Logistic 回 归 


算法 参数 配置 方法 (online logistic (CrossFold (adaptive logistic 解 ” 释 
regression) Learner) regression) 
DELOF Constructor Yes Yes Yes 设 定 正则 化 函数 来 鼓 
励 稀 下 性 避免 过 拟 合 
numrFeatures Constructor Yes Yes Yes 指定 特征 向 量 的 大 小 


numCategories Constructor Yes Yes Yes 指定 目标 类 别 的 数目 
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( 续 ) 
在 线 Logistic 回 归 ”交叉 折 色 学习 器 。 自 适应 Logistic 回 归 
算法 参数 配置 方法 (Conline logistic (CrossFold (adaptive logistic 解 释 
regression) Learner) regression) 

alpha Setter Yes Yes 设 定 学 习 率 计划 
qecayExponent Setter Yes Yes 设 定 学 习 率 计划 
lambda Setter Yes Yes 控制 正则 化 
learningRate Setter Yes Yes 设 定 学 习 率 计划 
stepOffset Setter Yes Yes 设 定 学 习 率 计划 


在 所 有 的 SGD 类 中 ， 先 验 ( prior )、 特 征 数 日 及 目标 类 别 数 日 都 在 构造 孙 数 中 设置 。 
AdaptiveLogisticRegression 类 通过 在 不 同 设置 下 并 行 运行 并 比较 多 个 CrossFoldLearner 
的 结果 来 控制 学 习 率 。 这 意味 着 adaptiveLogisticRegression 中 唯一 需要 另外 设置 的 参数 用 
于 控制 学 习 率 修改 频率 和 并 行 crossFoldLearners 测 试 数目 。 对 于 crossFoldLearner 和 
onlineLogisticRegression 而 言 ， 需 要 指定 学 习 雍 和 学 习 率 随时 间 和 又 减 的 方式 。 这 可 以 通过 
使 用 编译 硕 类 型 的 方法 来 实现 ， 比 如 : 

lr = new CrossFoldLearnerltargetCategories, numFeatures, new L1L1) ) 

.lJambda (currentLambda) 
.JearningRatel(initialLearningRate,) 


.decayExponent (0.5) 
.Stevooffset (2000}); 


通 浓 , decayExponent 和 stepoffset 用 于 控制 初始 学 习 率 随时 间 下 降 的 方式 , 而 设置 alpha 
值 则 要 少见 得 多 。 

除了 上 述 设置 之 外 , crossFoldLearner 还 允许 设置 其 内 部 所 使 用 的 交叉 检验 次 数 。 在 差 不 
多 所 有 情况 下 默认 值 $ 都 是 可 以 接受 的 。 使 用 比如 2 或 3 这 种 更 小 的 值 ， 会 将 训练 中 的 数据 数目 降 
低 到 大 部 分 应 用 可 以 接受 的 次 数 之 下 。 而 将 该 住 设 置 得 比 5 大 会 导致 更 大 的 计算 开销 ， 因 为 此 时 
对 每 次 交叉 都 需要 一 个 独立 的 学 习俗 。 

一 个 最 简单 的 调整 所 有 上 述 参 数 的 办 法 是 仅仅 在 黑 认 设置 下 使 用 AdaptiveLogistic 
Regression。 但 是 这 需要 花费 相当 多 的 计算 开销 ， 这 是 因为 AdaptiveLogisticRegression 
内 部 使 用 了 了 20 个 CrossFoldLearners 构 成 的 进化 池 ， 每 个 crossFoldLearners 维 护 5 个 
OnlineLogisticRegression 对 象 。 这 意味 着 必须 花费 一 定 开 销 在 同一 时 间 运 行 100 个 学 习 算 法 。 

尽管 如 此 , 在 实际 当中 上 述 做 法 却 并 没有 那么 严重 , 这 是 因为 从 人 磁盘 读 取 训练 样本 并 将 它们 
转换 成 特征 问 量 就 与 运行 100 个 学 习 算 法 的 代价 相当 。 为 外 ， 在 实际 情况 下 ， 一 个 学 习 算 法 将 至 
少 在 数 十 个 或 者 成 百 上 千 种 参数 配置 下 运行 。 而 AdaptiveLogisticRegression 却 能 自动 实现 
这 一 点 。 这样 做 的 一 个 副作用 是 ,数据 必须 只 能 做 一 次 转换 。 不 好 的 选项 早期 就 会 被 去 掉 ， 因 此 
不 会 有 计算 开销 浪费 在 它们 里 上 。 
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15.5 小结 


本 半 当 中 我 们 学 习 了 Mahout 中 计算 分 类 质量 指标 的 主要 API 以 及 如 何 使 用 这 些 指标 的 基本 
知识 。 我 们 还 学 习 了 稼 见 的 独 洞 如 何 影响 这 些 指标 以 及 如 何 发 现 并 对 篆 见 问题 进行 纠正 。 

正如 本 章 例 子 指出 的 那样 ， 分 类 融 的 问题 可 能 十 分 隐蔽 。 不 像 大 部 分 计算 机 程序 一 样 ， 即 使 
严重 的 错误 也 有 可 能 不 会 导致 完全 的 月 省 , 这 是 因为 学 习 算 法 常常 学 习 如 何 从 部 分 骨 江 中 进行 恢 
复 。 这 种 情况 既是 好 消息 也 是 坏 消 息 ， 这 使 得 细致 的 分 类 质量 检测 十 分 重要 。 

评 佑 并 不 只 是 构建 和 调整 高 性 能 分 类 大 的 一 个 迭代 过 程 , 它 也 是 在 产品 上 线 之 后 的 一 个 持续 
的 重要 步骤。 不断 的 性 能 评 佑 对 于 性 能 的 维持 相当 重要 。 外 部 条 件 的 变化 可 能 导致 模型 的 可 用 人 性 
降低 ， 或 者 数据 集 上 的 处 理 错 误会 降低 模型 的 有 效 性 。 任 何 情况 下 ,生产 中 的 持续 评 佑 对 于 意识 
到 是 否 需 要 重新 调整 或 者 是 人 否 重新 训练 模型 或 者 选择 新 方法 都 十 分 重要 。 而 这 些 方 面 会 在 下 一 章 
的 分 类 带 部 署 中 进行 探讨 。 


本 章 内 容 

口 指定 分 类 船 的 速度 和 规模 需 求 
口 构建 大 规模 分 类 表 

D 交付 一 个 高 速 分 类 天 


D 构建 并 部 署 分 类 服务 从 


本 章 主 要 考察 在 将 分 类 系统 变 成 实际 产品 时 所 面 对 的 问题 。 前 面 的 章节 中 , 我 们 讨论 了 很 多 
问题 ， 包 括 面 对 大 规模 数据 集 时 使 用 Mahout 分 类 豆 的 优点 、 这 些 分 类 天 如 何 训练 、 它 们 内 部 是 如 
何 工 作 的 以 及 如 何 对 这 些 分 类 带 进 行 评 佑 等 ,但 是 这 些 讨论 者 有意 省 略 了 将 分 类 条 做 成 产品 的 许多 
实际 问题 。 本 章 将 在 解释 如 何 部 闭 一 个 高 速 分 类 天 时 考察 这 些 实 际 问题 。 我 们 会 介绍 优化 特征 提取 
和 回 量 表示 的 技巧 , 会 描述 如 何在 负载 和 速度 之 间 折 中 , 还 会 解释 如 何 构建 超大 规模 系统 的 训练 流 
水 线 。 最 后 ,我 们 会 提供 一 个 基于 Thrif 的 服务 融 的 部 普 案 例 ， 该 服务 带 人 允许 全 功能 负载 均衡 分 类 。 

如 果 打 算 在 产品 中 使 用 Mahout, 那么 很 有 可 能 下 面 某 些 或 全 部 条 件 成 立 : 拥有 极 大 规模 训练 
数据 ， 要 有 高 否 吐 率 ， 需要 快速 啊 应 , 或 者 需要 和 现 有 大 型 系统 集成 。 上 述 条 件 也 意味 着 在 建立 
系统 时 需要 具体 考虑 的 架构 和 设计 因素 。 大 数据 集 需 要 高 效 的 谈 取 和 组 织 ， 高 行 吐 率 需 要 可 扩展 
且 优 化 的 代码 。 集 成 到 大 型 系统 需要 一 个 简单 清晰 的 作为 网 络 服务 的 API。Mahout 提 供 了 蝇 有 力 的 
办 法 来 处 理 大 数据 系统 ， 但 是 也 有 些 办 法 来 简化 或 重 述 问 题 以 使 像 Mahout 一 样 的 工具 更 加 强大 。 

下 一 节 中 ， 我 们 将 概述 如 何 设计 、 构 建 和 部 署 一 个 实际 的 大 规模 分 类 希 。 


16.1 巨型 分 类 系统 的 部 署 过 程 
当 部 署 基于 Mahout 的 分 类 器 系统 时 ,有 一 些 标准 步 又 可 以 用 于 保证 部 署 的 成 功 性 。 其 关键 在 


于 事先 预测 可 能 出 现 的 问题 并 从 中 选择 那些 需要 集中 精力 避免 的 问题 。 对 于 这 些 问 题 的 具体 处 理 
东 略 将 在 16.2 至 16.4 市 中 讨论 ， 本 市 主要 介绍 部 署 巨 型 系统 的 过 程 。 


注意 为 理解 Mahout 对 你 的 分 类 项 目 芝 来 的 潜在 价值 ， 要 了 解 你 的 系统 的 各 个 方面 ， 包 括 系 统 是 
否 特 别 大 , 或 者 是 否 要 求 系统 运行 特别 快 。 这 些 关 键 点 将 确定 Mahout 是 否 正 确 的 解决 方案 。 
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整个 部 署 流程 可 以 分 成 如 下 几 步 : 

口 理解 问题 ; 

口 根据 需要 优化 特征 提取 过 程 ; 

口 根据 需要 优化 向 量 表示 ; 

口 部 署 可 扩展 的 分 类 需 服 务 。 

上 面 的 每 一 步 都 在 本 市 中 描述 然后 应 用 到 随后 的 案例 中 。 


16.1.1 理解 问题 


第 一 步 要 确定 问题 的 真正 规模 以 及 在 训练 和 生产 环境 中 所 需要 的 分 类 速度 ,训练 数据 的 规模 
会 决定 特征 提取 的 构建 过 程 ， 比 如 到 底 是 采用 诸如 关系 数据 库 的 传统 工具 来 构建 这 个 模块 ,还 是 
使 用 类 似 Apache Hadoop 的 工具 来 构建 一 个 高 扩展 性 的 特征 提取 模块 。 有 关 规 模 和 速度 的 需求 细 
节 将 在 16.2 节 讨论 。 

训练 所 允许 的 时 间 将 确定 是 否 能 够 使 用 一 个 像 SGD 一 样 的 串 行 训练 分 类 器。 具体 原因 如 下 : 
如 果 使 用 并 行 算法 而 训练 时 间 的 要 求 又 有 限 ， 那 么 当 处 理 更 大 规模 数据 系统 速度 不 够 快 的 情况 
下 ， 通 过 增加 机 需 就 能 满足 需求 。 但 是 ,如果 使 用 串 行 算法 ， 只 有 对 单 台 计算 机 固定 时 间 段 的 安 
排 ， 因 此 只 能 通过 额外 处 理 加 速 解析 数据 和 编码 过 程 来 达到 要 求 。 

生产 环境 下 分 类 需 的 各 吐 率 和 延 到 性 需求 将 确定 是 否 需要 一 个 分 布 式 的 分 类 咒 , 以 及 是 否 需 
要 进行 大 量 的 预计 算 来 最 大 化 分 类 器 的 速度 。 对 于 一 定 延 迟 开销 下 的 极端 吞吐 率 需求 ,需要 确定 
的 事情 还 包括 是 否 需 要 进行 批量 分 类 。 


16.1.2 根据 需要 优化 特征 提取 过 程 


当 样 本 规模 高 于 数 千 万 时 , 采用 诸如 MapReduce 的 这 种 可 扩展 技术 来 进行 特征 提取 就 变 得 越 
发 重要 。 

如 果 规 模 很 小 不 到 几 百 万 , 那么 任意 技术 都 可 行 , 那些 诸如 关系 数据 库 之 类 的 久 经 考验 的 数 
据 管 理 和 提取 技术 都 能 处 理 得 非常 好 。 

当 规 模 更 大 时 , 就 可 能 必须 要 采用 类 似 Hadoop 的 工具 来 构建 并 行 的 提取 架构 , 或 者 交付 给 像 
Aster Data、Vertica 或 Greenplum 之 类 的 商业 支持 系统 。 如 果 使 用 Hadoop 的 话 ， 那 么 还 需要 确定 特 
征 提取 代码 的 具体 实现 方案 。 这 些 可 选 的 方案 包括 Apache Hive( http://hive.apache.org )、Apache Pig 
( http://pig.apache.org )、Casading ( http://www.cascading.org ) 甚至 Java 写 的 MapReduce 原 始 程序 。 

这 里 的 一 个 关键 点 是 任意 下 采样 过 程 都 要 作为 特征 提取 而 不 是 回 量 表示 的 一 部 分 以 保证 取 
样 过 程 可 以 并 行 处 理 。 实 际 针 对 大 数据 系统 的 特征 提取 相关 问题 的 细 太 将 在 16.3 市 介绍 。 


16.1.3 ”根据 需要 优化 回 量 编码 


如 末 对 于 每 个 分 类 带 在 经 特征 提取 和 下 采样 之 后 不 到 100 万 样本 ， 融 可 以 考虑 一 个 诸如 SGD 
的 串 行 模型 。 如 采 这 个 数字 超过 500 万 ， 那 么 就 要 考虑 对 数据 解析 和 特征 回 量 化 代码 仔细 优化 。 
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这 种 需求 可 能 涉及 不 带 字 符 串 转换 的 分 析 过 程 、 多 线程 的 输入 转换 以 及 缓存 策略 等 , 这 些 方法 可 
以 以 最 快 的 速度 ， 给 学 习 算法 提供 数据 。 

如 果 训 练 样本 数 超过 1 个 亿 ， 可 以 考虑 直接 使 用 带 预 定 学 习 率 参数 的 crossFoldLearnez 
类 。 如 果 问 题 相 对 稳定 的 话 ， 可 能 可 以 采用 某 种 自 适 应 策略 来 学 习 学 习 率 然后 选择 其 中 较 好 的 
结果 。 使 用 AdaaptiveLogisticRegression 来 实现 上 述 策 略 的 好 处 在 于 可 以 在 学 习 中 少 用 20 
倍 的 数值 运算 ， 不 足 之 处 在 于 加 速 比 并 没有 上 听 起 来 那么 大 ， 并 且 整 条 学 习 链 需要 更 多 的 维护 
下 


16.1.4 ”部 署 可 扩展 的 分 类 器 服务 


在 大 部 分 应 用 中 , 将 分 类 需 分 隔 成 一 个 独立 的 服务 来 处 理 数据 分 类 请 求 比较 方便 。 这 些 服 务 
是 典型 的 基于 网 络 RPC 协 议 的 常规 服务 , 这 些 协议 包括 Apache Thrift 或 基于 REST 的 HITTP 等 。16.4 
节 给 出 了 一 个 基于 Thift 构 建 的 分 类 服务 的 例子 。 这 种 做 法 特别 适合 于 需要 对 每 个 输入 样 例 执行 许 
多 分 类 操作 的 情况 ， 比 如 当 对 许多 对 和 象 进行 测试 以 得 到 期 望 值 的 情况 就 是 如 此 。 

在 有 些 情况 下 , 网 络 往返 的 延 玉 开销 无 法 接 有 党 ， 此 时 分 类 带 就 必须 作为 一 个 直接 调用 库 来 集 
成 。 当 非常 细 粒 度 的 需求 需要 在 极端 速率 下 处 理 时 ， 上 述 情 况 就 会 发 生 。 由 于 现代 网 络 服务 架构 
能 够 支持 每 秒 钟 超过 50 000 的 吞吐 率 ， 因 此 上 述 情 况 相 对 比较 罕见 。 


16.2 ”确定 规模 和 速度 需求 


构建 分 类 天 第 一 步 就 是 要 确定 规模 因素 , 包括 训练 数据 的 数量 和 系统 要 达到 的 硅 吐 率 。 从 多 
个 维度 了 解 问题 的 规模 可 以 指导 设计 中 的 一 些 决 策 ， 这 些 决 策 会 刻画 即将 构建 的 系统 的 各 个 
方面 。 


16.2.1 多 大 才 算 大 


如 果 考 虑 使 用 Mahout 来 构建 分 类 系统 , 首先 问 一 下 自己 有 关系 统 的 几 个 如 下 间 题 , 然后 根据 
问题 的 答案 来 确定 系统 的 哪些 部 分 需要 采用 大 数据 技术 ， 而 哪些 部 分 只 需要 来 用 传统 技术 人 处理 。 

口 有 多 少 训练 样本 ? 

D 分 类 的 批 处 理 规模 多 大 ? 

口 分 类 批 处 理 要 求 的 啊 应 时 间 多 少 ? 

D 每 秒 钟 必须 要 处 理 的 分 类 次 数 总 共有 多 少 ? 

口 系统 期 望 的 最 大 负载 是 多 少 ? 


最 大 负载 的 估计 

为 估计 最 大 负载 ， 可 以 简单 地 假设 每 天 有 20 000 秒 而 不 是 真正 的 86 400 秒 ， 这 样 处 理 起 
来 比较 方便 。 这 里 使 用 一 个 缩水 的 仅 由 20 000 秒 构成 的 一 天 ， 可 以 在 合理 的 事务 突 发 性 水 平 
上 从 平均 值 转换 成 峰值 ， 从 而 完成 峰值 的 估算 。 
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对 长 期 的 平均 事务 率 进 行 估计 通常 十 分 容易 ， 但 是 要 设计 系统 时 必须 知道 其 所 支持 的 峰 
值 。 利 用 上 述 概算 法 则 ， 可 以 使 用 一 个 称 为 费 米 估计 (Fermiestimate ) 的 方法 来 估计 系统 每 秒 
钟 必 须要 处 理 的 事务 数目 。 因 里 克 . 费 米 (Enrico Fermi ) 是 著名 的 物理 学 家 ,特别 以 擅长 类 
似 上 述 的 估计 而 闻名 于 世 ， 于 是 他 的 名 字 和 这 些 估算 关联 在 一 起 。 


上 述 值 并 不 需要 精确 地 估计 。 通常 而 言 ， 只 要 估计 的 值 与 真实 值 在 同一 数量 级 内 束 足 以 用 于 
初始 系统 的 规模 和 架构 设计 。 当 转 回 产品 时 ， 将 会 最 终 重新 调整 上 述 佑 计 值 。 

一 旦 你 知道 会 使 用 的 训练 样本 数目 , 就 可 以 考虑 Mahout 是 否 适合 你 的 项 目 , 并 在 适合 的 情况 
下 选择 好 的 算法 。 

1. 训练 样本 数 的 含义 

通常 来 说 ， 当 训练 样本 一 旦 超过 100 000 时 ， Mahout 就 会 变 得 有 意思 起 来 。 但 是 能 够 处 理 的 
数据 规模 并 没有 下 界 。 当 有 上 百 万 或 更 多 训练 样本 时 ,大 部 分 其 他 的 数据 挖掘 方案 无 法 完成 训练 
过 程 ， 而 当 训 练 数据 规模 达到 上 亿 或 者 上 十 亿 时 ， 就 很 少 有 系统 能 够 构建 可 用 的 模型 。 训 练 样本 
的 数目 以 及 模型 的 类 型 是 训练 时 间 的 主要 决定 因素 。 

对 于 一 个 像 Mahout 一 样 的 可 扩展 系统 来 说 ,可 以 通过 小 规模 数据 上 的 多 次 测试 对 期 望 的 训练 
时 间 进 行 可 徘 推 凯 。 对 于 像 SGD 一 样 的 串 行 学 习 算 法 来 说 ,学 习 时 间 应 该 与 输入 规模 呈 线 性 关系 。 
实际 上 ,对 于 很 多 模型 来 说 , 会 在 远 远 没 有 人 处 理 完 所 有 输入 之 前 就 会 收敛 到 一 个 可 靠 的 错误 水 平 
上 ， 因 此 训练 时 间 和 输入 规模 呈 亚 线性 关系 。 

如 果 使 用 并 行 学 习 算法 ， 比 如 朴 系 贝 叶 斯 的 并 行 版 本 , 那么 学 习 的 时 间 大 致 与 输入 规模 除 以 
学 习 用 MapReduce 市 点 数 之 后 的 结果 旦 线性 关系 。 由 于 村 又 贝 叶 斯 的 学 习 过 程 编 写成 一 个 批 处 理 
系统 ， 即 所 有 输入 会 经 多 步 才能 处 理 ， 所 以 该 过 程 不 能 很 早 中 止 。 这 也 意味 者 即使 部 分 数据 虽然 
足以 生成 一 个 可 用 的 模型 ， 而 这 里 必须 要 处 理 所 有 的 训练 数据 才能 得 到 一 个 可 用 的 模型 。 

2. 分 类 批 处 理 的 规模 

一 个 稼 见 的 情况 下 ,， 对 于 单个 请 求 需 要 执行 一 系列 分 类 过 程 。 这 种 需求 第 第 发 生 于 多 个 不 同 
对 和 象 需要 评估 的 情况 下 。 比 如 ,在 一 个 广告 投放 系统 中 , 通 销 有 数 千 个 广告 ， 每 个 广告 都 有 模型 
需要 评估 来 确定 哪个 广告 出 现在 某 个 网 页 中 。 这 里 的 批 处 理 规模 就 是 需要 评估 的 广告 数目 。 有 些 
应 用 的 批 处 理 规模 十 分 大 ， 超 过 100 000 个 模型 。 

另 一 个 极端 情况 是 ,， 某 个 欺诈 检测 服务 顺 可 能 只 有 一 个 模型 要 进行 值 计算 ,由 于 单个 事务 是 
否 存在 其 许 只 涉及 一 个 决定 , 即 存在 其 诈 与 否 。 这 种 情况 和 上 述 广告 选择 服务 硕 存 在 很 大 的 差异 ， 
后 者 当中 对 于 多 个 可 能 的 广告 的 每 一 个 都 需要 对 点 击 模型 进行 计算 。 

3. 最 长 响应 时 间 和 所 需 吞 吐 率 

最 长 啊 应 时 间 确 定单 个 分 类 批 处 理 完 成 所 需要 的 时 间 。 该 时 间 也 确定 了 所 需 分 类 速率 的 下 
界 。 当 然 ,， 这 个 值 只 是 一 个 下 界 , 这 是 因为 如 果 每 秒 钟 处 理 的 事务 数目 足够 的 话 ， 就 有 可 能 文 持 
更 高 的 速率 。 

通常 来 说 , 在 较 小 的 分 类 批 处 理 规模 下 很 容易 就 可 以 构建 每 秒 1000 次 分 类 的 系统 , 这 是 因为 
这 个 处 理 速 上 度 相 对 于 当前 计算 机 的 处 理 能 力 而 言 要 小 一 些 。 实际 上 ,本草 后 面 会 介绍 的 一 个 基于 
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Thrift 的 服务 器 很 容易 就 能 达到 这 个 需求 。 直 到 批 处 理 的 规模 超过 100 到 1000 时 ,该 服务 器 都 能 够 
基本 支持 上 述 事 务 率 ， 这 是 因为 此 时 大 部 分 的 开销 都 是 网 络 开销 。 如 果 批 处 理 规模 达到 10 000 或 
更 多 ， 啊 应 时 间 将 开始 攀升 。 如 果 批 处 理 规 模 更 大 并 且 要 求 亚 秒 级 啊 应 时 间 ， 那么 可 能 要 对 分 
类 系统 横 问 扩展 或 者 重 构 。 


16.2.2 ”在 规模 和 速度 之 间 折 中 


使 用 Mahout 的 一 个 好 处 是 ， 相 对 于 非 可 扩展 系统 来 说 ，Mahout 可 以 更 宽松 地 文 持 在 数据 规 
檬 和 人 处理 速度 之 间 折 中 。 也 就 是 说 ， 在 系统 的 多 个 方面 之 间 通 党 需要 某 种 程度 的 折 中 ， 因此 需 
要 考虑 如 何 对 它们 进行 折 中 。 为 达到 此 目的 ,需要 牢记 的 是 ,你 的 系统 的 某 个 方面 的 需求 可 能 二 
其 他 系统 不 太一 样 。 在 同一 系统 中 使 用 不 同 的 分 类 需 来 完成 不 同 目 标 是 一 件 很 名 见 的 事情 。 

一 旦 系统 的 各 个 方面 都 考虑 得 比较 清楚 ,就 可 以 开始 规划 部 署 ,， 并 考虑 哪些 方面 需要 特别 注 
意 ， 哪 些 方面 需要 快速 实现 。 下 面 的 草 和 给 出 了 部 署 过 程 的 每 一 步 所 需要 重点 考虑 的 事项 。 一 般 
来 说 ， 这 些 注 意 事项 要 不 在 分 类 训练 过 程 中 应 用 ， 要 不 在 分 类 部 署 之 后 应 用 。 

1. 训练 

为 建立 可 分 类 数据 所 需要 运行 的 大 规模 联结 运算 常常 占据 了 训练 的 大 部 分 时 间 。 用户 可 以 使 
用 标准 的 Hadoop 工 具 来 实现 这 些 运 算 , 但 是 必须 注意 要 使 得 联结 运算 高 效 运行 。 

对 负 例 样本 进行 下 采样 (downsampling ) 会 大 大 降低 训练 样本 的 规模 。 在 欺诈 检测 和 点 击 优 
化 中 ， 非 兴趣 训练 样本 数目 往往 大 大 超过 兴趣 样本 ( 欺诈 或 点 击 ) 数目 。 保留 所 有 的 兴趣 样本 对 
于 精确 学 习 至 关 重 要 , 但 是 只 要 仍然 保持 非 兴 趣 样本 比 兴 趣 样 本 足够 多 , 就 可 以 随机 于 挥 一 些 非 
兴趣 样本 。 这 种 样本 的 丢弃 过 程 就 称 为 下 采样 ， 该 方法 第 第 作用 联结 过 程 的 一 部 分 进行 处 理 。 

在 获得 训练 样本 之 后 , 特征 的 表示 过 程 常 第 占据 了 训练 的 大 部 分 时 间 。 训练 数据 的 下 采样 也 
降低 了 特征 表示 的 时 间 ， 但 为 使 表示 过 程 更 加 高 效 仍然 有 很 多 事情 要 做 。 

至 始 至 终 我 们 都 要 牢记 这 一 点 , 即 建立 一 个 好 的 分 类 模型 需要 多 人 裔 的 反复 调 优 过 程 , 必须 确保 
训练 流水 线 能 够 使 得 上 述 迭 代 过 程 高 效 进行 。16.3 节 介绍 了 训练 流水 线 中 的 架构 和 策略 性 问题 。 

2. 分 类 

当 准 备 将 分 类 需 集 成 到 系统 时 , 总 体 的 分 类 吞吐 率 需 求 将 确定 如 何 对 分 类 需 进 行 优 化 。 大 部 
分 Mahout 分 类 融 都 足够 快 , 因此 只 有 在 极端 系统 中 才 需 要 考虑 上 述 问题 。 但 是 需要 检查 此 时 是 否 
处 于 极端 系统 当中 。 如 果 不 在 ,那么 就 可 以 直接 采用 篆 规 方案 处 理 ， 而 如 采 在 极端 系统 当中 ,就 
必须 要 安排 时 间 来 拓展 通常 的 性 能 限制 。 

如 有 果 每 次 事务 当中 只 需要 做 少量 的 分 类 人 处理 , 并 且 只 有 一 般 的 延 民 时 间 和 行 吐 率 需 求 ,利用 
每 个 事务 单线 程 的 传统 服务 设计 就 足以 达到 要 求 。 基 于 REST 的 服务 或 许可 以 接受 ,或 者 采用 性 
能 稍微 高 一 点 点 的 网 络 服 务 技 术 ， 比 如 Thrift、Avro 或 者 协议 缓冲 区 ( Protocol Buffer ) 技术 。16.5 
节 给 出 了 如 何 构 建 这 样 的 一 个 服务 的 例子 。 

如 有 果 每 次 事务 当中 所 需要 的 分 类 处 理 次 数 达 到 中 等 级 别 〈 数 十 到 数 千 )， 并 且 需 要 更 高 的 延 
迟 性 和 吞吐 率 要 求 , 那么 需要 采用 一 个 基于 多 模型 或 多 输入 的 多 线程 过 程 来 对 基本 的 分 类 服务 进 
行 增 强 处 理 ， 但 是 此 时 在 其 他 方面 基本 的 设计 仍然 足以 满足 需求 。 
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当 碰 到 十 分 极 痪 的 批 处 理 规模 需求 需要 在 每 个 服务 事务 中 处 理 大 量 的 模型 计算 时 , 束 必 须 深 
入 到 模型 评估 的 核心 代码 中 来 将 模型 评估 分 成 多 个 部 分 , 有 些 部 分 可 以 提前 评 佑 ， 而 有 些 部 分 必 
须要 在 分 类 时 评 佑 。 这 种 优化 过 程 非常 针对 于 特定 的 应 用 系统 ,其 内 容 远 远 超 过 本 书 的 儿 新 疙 围 。 
这 种 情况 下 使 用 Mahout 的 一 个 实现 案例 在 第 17 章 给 出 。 
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分 类 系统 需要 训练 数据 , 而 可 扩展 的 分 类 系统 可 以 处 理 非常 大 规模 的 数据 ,为 了 给 这 些 系统 
提供 数据 ， 必 须要 能 处 理 更 大 规模 的 数据 ， 这 样 才能 从 中 选 出 一 些 来 训练 分 类 器 ， 

为 了 处 理 这 么 大 规模 的 数据 , 需要 牢记 下 面 几 件 事 。 首先 也 是 最 重要 的 事情 是 保持 技术 和 任 
务 之 间 的 匹配 。 比 如 ， 如 果 训 练 样本 不 到 100 万 ， 那 么 几乎 所 有 的 技术 都 能 奏效 ， 包 括 传统 的 关 
系数 据 库 甚至 对 数据 进行 扁平 文件 表示 的 脚本 。 而 当 训练 样本 达到 1 亿 ， 关 系数 据 库 仍 然 可 以 进 
行 必要 的 数据 准备 工作 , 但 是 获取 数据 会 逐渐 变 成 _ 件 越 来 越 令 人 痛苦 不 堪 的 事情 。 如 果 样 本 规 
模 达 到 10 亿 或 更 多 , 关系 数据 库 不 再 实用 , 可 能 必须 要 转 问 诸如 Apache Hadoop 之 类 的 MapReduce 
系统 。 

10 亿 训练 样本 听 起 来 很 极端 ， 但 是 在 实际 中 达到 这 个 水 平 的 案例 却 出 奇 普遍 。 例 如 ， 在 17 
章 即将 提 到 的 Shop It To Me 公司 一 天 会 发 送 几 百 万 邮件 ， 而 每 封 邮 件 包 含 数 百 商品 。 因 此 ， 它 
天 能 够 产生 数 亿 的 训练 样本 ,并且 很 快 就 能 达到 数 十 亿 规模 。 所 有 大 型 的 广告 网 络 每 天 的 广告 展 
示 数 目 远 高 于 10 亿 ,每 次 展示 就 是 一 个 潜在 的 训练 样本 。_ 个 每 月 拥有 百 万 独立 访问 者 的 音乐 流 
媒体 服务 大 概 每 月 能 产生 10 亿 的 训练 样本 。 

不 管 所 处 理 数据 规模 多 大 ， 模 型 训练 流水 线 必须 要 支持 如 下 功能 ， 

D 必须 保持 数据 记录 获取 和 存储 的 一 致 性 ， 通 常 它们 基于 时 间 来 分 割 ， 

D 数据 记录 必须 要 和 某 种 参照 数据 进行 联结 运算 来 增强 ， 

上 数据 记录 必须 要 加 入 到 目标 变量 值 中 ， 

D 训练 数据 的 下 采样 可 能 有 用 应 该 支持 ， 

上 除了 简单 的 下 采样 之 外 ， 其 他 一些 过 滤 和 投影 操作 也 应 该 支持 ， 

号 训练 数据 必须 要 采用 训练 特征 来 表示 ， 

D 训练 后 的 模型 必须 要 保留 关联 的 元 数据 信息 ， 这 些 信息 描述 了 对 数据 进行 表示 的 方式 。 

训练 数据 流水 线 的 多 个 部 分 往往 可 以 横向 扩展 , 但 是 当 涉及 一 个 模型 的 训练 时 ，_ 些 极 易 部 
轩 的 Mahout 模 型 并 不 适合 在 训练 过 程 中 横向 扩展 。 这 也 意味 着 ， 当 数据 规模 很 大 的 情况 下 , 早期 
的 数据 清洗 和 处 理 可 以 采用 高 度 可 扩展 的 方式 来 处 理 , 但 是 当 模 型 训练 完毕 之 后 ,就 必须 要 对 数 
据 的 高 效 表示 下 大 功夫 。 

这 一 节 将 介绍 利用 Mahout 及 相关 技术 来 构建 满足 上 述 功能 的 数据 流水 线 时 ,所 要 考虑 的 多 个 
重要 间 题 。 接 下 来 的 介绍 中 假设 读者 已 经 熟悉 在 小 规模 情况 下 所 用 的 技术 ,因此 只 关注 于 此 在 大 四 3 
规模 条 件 下 的 技术 。 
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16.3.1 获取 并 保留 大 规模 数据 


训练 大 规模 模型 意味 看 将 不 得 不 处 理 真正 的 大 训练 数据 集合 。 像 以 前 一 样 , 那些 在 小 规模 数 
据 微 不 足 利 的 问题 往往 在 大 规模 上 数据 上 一 下 子 变 成 很 严重 。 大 部 分 的 这 些 问 题 都 源 目 一 个 事 
实 ， 即 大 规模 数据 拥有 大 量 在 比喻 上 被 称 为 惯性 〈inertia ) 的 东西 。 这 种 惯性 使 得 大 规模 数据 的 
移动 或 转换 十 分 困难 ， 需 要 为 将 来 的 打算 做 好 事先 的 规划 。 如 采 对 于 新 数据 没有 直接 的 体验 ， 上 
述 规划 不 可 能 高 效 完 成 。 因 此 ， 在 对 数据 有 足够 体验 之 前 ， 用 户 需 要 回 到 并 遵循 最 佳 实践 标准 。 

1. 获取 数据 

大 规模 数据 集 上 的 第 一 个 问题 就 是 对 它们 的 获取 。 这 听 起 来 很 容易 , 但 是 就 大 规模 数据 源 上 
所 需要 做 的 事情 而 言 ， 它 比 看 上 去 要 更 难 。 这 个 处 理 层 次 的 主要 做 法 是 保持 数据 的 相对 紧凑 性 ， 
并 保持 数据 产生 过 程 中 的 很 自然 的 内 在 并 行 机 制 。 

例如 ， 如 末 拥 有 大 量 服务 天 ,每 台 服 务 需 每 秒 处 理 数 千 事 务 ,那么 此 时 采用 单个 中 心 日 志 服 
务 硕 可 能 是 个 粳 糕 的 做 法 。 这 是 因为 极度 的 中 心 化 易 受 单 点 故障 的 影响 。 数 据 获取 系统 很 容易 反 

可 影响 整个 所 观察 系统 的 运行 。 为 避免 上 述 问题 ,在 数据 获取 过 程 中 进行 减 载 至 关 重 要 ， 和 宁愿 于 
失 一 些 数据 也 不 能 让 生产 系统 表演 。 

第 二 个 获得 大 规模 数据 集 的 技巧 是 , 确保 保存 数据 的 目标 是 为 了 让 机 和 硕 以 机 顶 可 读 的 格式 来 
读 取 这 些 数 据 。 拥 有 对 人 可 读 的 日 志 也 很 好 ,但 是 从 这 些 日 志 中 提取 数据 是 常见 的 错误 源 之 一 ， 
这 是 因为 这 些 数 据 的 格式 过 于 宽松 。 最 好 将 人 要 读 的 数据 保存 为 对 人 可 读 的 格式 而 将 要 处 理 的 数 
据 保存 为 机 融 可 旋 的 格式 。 

对 于 大 规模 数据 获取 来 说 , 可 以 使 用 多 种 不 同 的 数据 格式 , 但 是 只 有 其 中 的 一 部 分 可 以 同时 
提供 紧凑 性 、 快 速 解析 库 和 最 重要 的 schema 的 灵活 性 ,而 这 些 要 求 是 必要 的 。Schema 灵 活性 可 以 
允许 所 存储 数据 的 演变 同时 仍然 能 够 读 取 旧 数 据 。 

两 种 最 突出 的 同时 文 持 上 述 功 能 的 编码 格式 是 Apache 的 Avro 和 谷歌 的 Protocol Buffers。 两 种 
格式 的 文 持 都 非常 好 ， 并 且 提 供 可 比 的 功能 和 灵活 性 。 利 用 逗号 或 Tab 分 开 字 段 的 数据 存储 方法 
非常 普遍 , 但 是 这 种 方法 当 schema 演 变 时 很 快 融会 出 现 问题 , 这 是 因为 哪 列 数据 包含 哪个 字段 会 
出 现 混 消 。 当 不 同 schema 的 文件 必须 要 同时 进行 处 理 时 ， 上 述 混 消 会 变 得 特别 严重 。 

2. 分 割 并 存储 数据 

当 获 取 并 存储 数据 时 ， 必 须要 遵循 如 下 组 织 原则 来 保证 最 终 得 到 的 是 可 扩展 系统 。 

口 通常 情况 下 ， 每 个 目录 下 包含 的 文件 数目 通常 应 该 不 多 于 几 和 二。 更 大 的 目录 会 守 人 致 扩展 

问题 ， 这 是 因为 在 极 大 的 目录 下 打开 和 创建 文件 将 需要 更 长 的 时 间 。 
口 程序 处 理 的 文件 数目 应 该 尽量 少 ， 这 可 以 通过 不 处 理 无 关 数 据 并 且 将 文件 保留 得 尽量 和 
实际 一 样 大 来 实现 。 避 免 无 天 数据 的 处 理会 限制 数据 的 传输 量 ， 而 使 用 大 文件 会 最 小 化 
位 盘 寻 违 市 来 的 时 间 损 失 从 而 最 大 化 VO 速度 。 

口 文件 组 织 的 目录 结构 应 该 文 持 篆 用 的 相关 训练 数据 选择 方式 。 目 录 组 织 得 好 可 以 在 不 过 
历 所 有 文件 的 情况 下 发 现 相关 文档 。 

口 文件 通常 应 该 不 超过 1GB 以 方便 处 理 ,文件 应 该 足够 小 以 方便 在 合理 的 短 时 间 内 在 系统 之 


16.3 ”对 大 型 系统 构建 训练 流水 线 275 


间 传 输 。 这 也 使 得 可 以 通过 反复 快速 传输 来 限制 网 络 中 断 市 来 的 影响 。1GB 左 右 是 个 很 不 
错 的 中 间 脆 协 值 。 
膛 循 上 述 原 则 通 笛 会 导致 如 下 绪 末 : 顶层 目录 存储 的 是 数据 的 一 般 类 别 , 而 子 目 录 下 包含 未 
渐 精 细 的 按照 时 间 划 分 的 结果 。 


提示 将 多 个 小 的 昌文 件 合 并 成 能 够 代表 更 大 时 间 段 的 大 文件 通常 是 一 个 好 的 做 法 ， 这 可 以 避 
免 后 续 处 理 过 程 有 过 多 的 文件 输入 。 如 果 对 于 最 近 的 时 间 段 需要 更 细 的 时 间 粒 度 ， 那 么 
文件 可 能 会 按照 非常 短 的 时 间 段 来 保存 ， 比 如 $ 分 钟 间 隔 ， 但 是 几 天 以 后 ， 这 些 文件 就 应 
该 按 小 时 然后 按 天 累加 到 文件 中 。 如 果 每 天 的 数据 超过 1~2 GB， 那 么 每 天 保存 多 个 文件 
或 许 是 一 个 好 的 做 法 。 


3. 增 量 式 处 理 

在 很 大 程度 上 说 , 特征 提取 并 不 是 那 种 需要 在 长 时 间 段 上 进行 罕 计 的 任务 。 这 也 意味 看 一 旦 
对 一 小 时 的 数据 进行 了 必要 的 联结 运算 和 数据 绚 减 处 理 来 得 到 相应 的 训练 数据 , 该 数据 在 下 一 个 
小 时 的 数据 到 来 之 前 可 能 不 会 改变 。 这 种 特性 使 得 每 次 训练 完成 时 增 量 式 获取 训练 数据 相当 容 
兄 ， 而 不 是 为 全 时 间 段 进行 所 有 的 特征 提取 。 

同样 ,这 种 增 量 式 人 处理 过 程 也 使 得 短 时 间 段 内 所 提取 的 特征 可 以 累积 ,然后 合并 后 长 期 存储 。 
例如 ,将 以 小 时 计 的 训练 数据 进行 累积 并 将 它们 合并 成 以 天 计 的 训练 文件 然后 几乎 可 以 实现 永久 
保存 ， 这 种 做 法 十 分 第 见 。 这 也 很 好 地 对 应 了 原始 数据 的 常见 保存 方法 。 

当 分 类 系统 相对 较 新 时 , 新 特征 的 加 入 和 下 采样 中 的 变化 可 能 意味 痢 知 要 时 常 午 构 训练 数据 
文件 。 随 着 时 间 的 深 移 ， 变 化 的 频率 通常 会 下 降 。 一 旦 这 种 情况 发 生 , 增 量 式 构 建 训练 数据 就 会 
是 一 个 最 点 ， 这 是 因为 数据 到 达 和 模型 训练 开始 之 间 的 延迟 会 被 降低 。 


16.3.2” 非 规范 化 及 下 采样 


在 用 于 训练 模型 之 前 对 直接 获 取 的 数据 进行 非 规范 化 处 理 相 当 普 过 , 这 是 因为 原始 数据 可 能 
来 自 于 不 同 的 存储 格式 ,包括 日 志文 件 、 数 据 库 表 和 其 他 数据 源 的 格式 。 在 非 规 犯 化 处 理 中 , 数 
据 可 以 低 元 余地 存在 独立 的 数据 表 中 , 这 些 表 通过 键 互 相 联 绪 以 使 得 每 条 记录 都 是 目 包 含 的 而 不 
需要 指 问 外 部 数据 ， 这 些 表 的 例子 包括 用 户 信息 表 或 产品 措 述 表 。 

由 于 模型 训练 算法 并 不 能 对 外 部 参照 数据 进行 解析 , 所 以 它们 的 输入 必须 要 完全 非 规范 化 才 
可 用 。 非 规范 化 几乎 往往 通过 采种 联结 运算 来 完成 。 在 小 规模 到 中 等 规模 的 数据 集 上 ， 几 乎 所 有 
的 方法 都 可 以 足以 完成 这 些 联结 和 运算, 像 关系 数据 库 一 样 的 工具 相当 有 用 。 然而 对 于 大 规模 数据 
集 ， 这 些 联结 运算 很 难 蜗 效 处 理 。 此 外 ， 在 进行 联结 运算 时 必须 要 考虑 数据 的 特点。 

1. 首先 联结 目标 变量 

几乎 到 处 都 需要 联结 运算 将 上 日 标 变 量 值 和 预测 变量 关联 起 来 。 如 来 可 能 的 话 , 目标 变量 应 该 
在 非 规 范 化 之 前 关联 , 这 是 因为 委 第 需要 根据 目标 变量 的 值 来 决定 训练 样本 的 下 采样 做 法 。 在 任 
一 后 续 联 结 操 作 之 前 进行 下 采样 , 由 于 在 更 少 的 数据 上 得 到 几乎 一 样 的 结 琳 , 所 以 通常 能 实现 训 
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练 中 大 量 开销 的 和 省。 

2. 内 存 中 联结 

某 些 情 况 下 ,训练 数据 需要 联结 成 行 数 有 限 的 二 级 表 。 如 果 情 况 如 此 ， 二 级 表 有 时 可 以 调 人 
内 存 ， 通 过 查询 二 级 表 的 内 存 表 示 来 完成 联结 。 

内 存 表 的 装载 过 程 在 Mapper 或 Reducer 的 configure 方 法 中 实现 。 内 存 中 的 联结 运算 可 以 
在 一 个 MapReduce 的 程序 内 部 作为 Mapper 或 者 Reducer 的 一 部 分 来 完成 ， 尽 管 正在 生成 分 类 训 
练 数据 ，Map 端 的 联结 仍然 更 普 遇 。 

在 某 些 参考 文献 中 , 内 存 式 联结 也 称 内 存 支持 式 联结 (memory-backed join ), 比如 Lin 和 Chris 
Dyer 的 书 Data-Intensive Text Processing with MapReduce 中 就 是 这 样 。 

3. 合并 联结 

当 待 联结 的 两 个 数据 集 都 很 大 的 时 候 ， 可 能 逢 要 合并 联结 ( merge join ) 操作 。 在 一 个 顺序 执 
行 非 并 行程 序 实现 的 合并 联结 操作 中 ， 两 个 基于 相同 键 排 序 的 数据 集 可 以 在 两 个 数据 集 的 单 笛 扫 
摘 中 完成 联结 。 

在 一 个 MapReduce 程 序 中 ,由 于 不 太 可 能 按照 每 个 Map 正 确 合 并 数据 的 方式 划分 两 个 数据 集 ， 
此 情况 有 点 复杂 。 然 而 ， 对 一 个 文件 进行 排序 时 可 以 建立 有 索引。 索引 数据 的 路 径 可 以 作为 边界 
数据 提供 ， 从 而 每 个 Map 个 过 程 一 开始 读 取 非 索 引 数 据 的 一 个 划分 子 集 ， 然后 在 索引 数据 中 的 正 
确 位 置 附近 寻找 并 从 该 位 置 开始 合 3 

当 数 据 本 来 就 排 好 序 时 ,合并 联结 十 分 有 用 , 但 是 稼 向 被 忽略 的 一 点 是 ， 如 采 输 入 数据 集中 
只 有 一 个 排 好 序 并 被 索引 的 话 ， 那 么 合并 联结 可 以 在 Redqucer 而 不 是 在 Mapper 中 完成 。 这 种 做 
法 可 以 允许 利用 MapReduce 和 框架 来 对 非 索 引 输入 进行 排序 。 而 相对 于 全 Reduce 联 结 来 说 上 述 做 法 
是 否 市 省 时 间 只 能 通过 实验 来 确定 。 

4. 全 Reduce 联 结 

从 编程 量 来 说 ， 最 简单 的 联结 数据 的 方法 是 进行 全 Reduce 联 结 。 这 也 意味 着 在 Mapper 中 内 
需要 催 单 地 谈 入 两 个 数据 集 然 后 按照 感 兴趣 的 键 进行 归 约 即 可 。 这 种 做 法 可 能 会 比 合 并 联结 的 花 
销 更 大 ， 这 是 因为 在 Hadoop 的 混 洗 (shuffle ) 步骤 中 需要 对 更 多 的 数据 进行 排序 。 

当 进 行 全 Reduce 联 结 操作 时 , Hadoop 对 结果 进行 排序 将 很 有 帮助 , 这 样 训练 记录 会 在 加 入 到 
训练 记录 并 非 规 范 化 之 后 到 达 。 利 用 Hadoop 进 行 排序 可 以 允许 Redqucezr 采 用 全 流 的 方式 来 编写 。 
由 于 Hadoop 中 的 混 洗 和 排序 进行 了 高 度 优化 ,一 个 暴力 的 全 Reduce 联 结 可 能 起 码 和 合并 联结 一 样 
高 效 ， 特 别 在 进行 一 个 Reduce 端 的 合并 联结 时 更 是 如 此 。 

如 有 果 训 练 数 据 规模 大 于 要 联结 到 的 数据 ,那么 全 Reduce 联 结 和 任意 一 种 合并 联结 可 能 在 速度 
上 都 相当 。 


16.3.3 ”训练 中 的 陷阱 


即使 假设 数据 如 你 所 想 、 联 结 工作 正常、 数据 解析 也 正确 ,仍然 存在 一 些 非常 容易 陷入 的 陷 
陡 。 其 中 最 隐 珊 、 诊 断 也 最 困难 的 是 目标 汇 汤 。 为 一 个 第 见 的 问题 是 所 使 用 的 数据 编码 表示 不 合 
理 ， 从 而 导致 在 期 望 的 结 来 和 模型 看 到 的 数据 之 间 存 在 语义 失 配 。 下 面 将 详细 讨论 这 些 问题 。 
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1. 目标 泄漏 或 目标 泄漏 

保持 每 天 的 训练 文件 能 够 充分 促进 随时 间 变 换 的 训练 过 程 , 这 种 训练 过 程 通 第 对 于 避免 目标 

例如 , 假定 在 某 个 目标 定位 系统 中 想 用 的 特征 是 基于 点 击 历史 的 用 户 聚 类 结果 信息 。 如 果 使 
用 该 聚 类 结 末 来 训练 出 同一 时 间 有 段 的 一 个 模型 , 或 许 会 发 现 最 终 模 型 在 对 点 击 进行 预测 时 效果 非 
和 好。 然而 ,这 里 发 生 的 事情 是 ， 基 于 点 击 历史 的 聚 类 可 能 会 将 没有 点 击 的 人 与 有 点 击 的 人 放 到 
不 同 复 中 ， 这 种 划分 方法 意味 着 ， 在 聚 类 绪 末 建立 时 用 户 艇 就 是 一 个 目标 泄漏 。 

图 16-1 给 出 了 上 述 目标 泄漏 次 藏 在 设计 当中 的 一 个 示意 图 。 为 修复 这 个 漏洞 ， 不 能 仅仅 只 是 
删除 出 间 题 的 变量 。 基于 用 户 历史 的 聚 类 仍然 是 一 个 有 价值 的 预测 变量 。 这 里 的 问题 只 是 因为 模 
型 没有 在 新 数据 上 进行 训练 。 


图 16-1 注意 不 要 这 么 做 : 由 于 目标 变量 (clicks > 0 ) 基于 族 ID 所 在 的 相同 数据 ， 
此 基于 点 击 历史 的 附 类 会 在 训练 数据 中 引入 一 个 目标 泄漏 


图 16-2 给 出 了 如 何 先 通过 对 早期 数据 聚 类 然后 利用 近期 数据 训练 来 元 服 上 述 问题 的 做 法 , 其 
中 近期 的 数据 对 聚 类 算法 来 说 是 未 知 的 。 更 进一步 ， 留 存 测 试 数 据 可 以 来 目 更 近 的 数据 。 


第 1 天 
的 点 击 


图 16-2 一 种 避免 日 标 泄漏 的 好 方法 基于 前 3 天 的 点 击 历史 计算 复 ， 然 后 从 第 4 天 开 
始 推导 目标 变量 (clicks>0) 
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按时 间 分 开 保 存 数据 能 够 使 得 获取 测试 数据 非常 容易 。 在 这 种 场景 下 ,可 以 利用 第 五 天 的 数 
据 作 为 留存 数据 来 评估 模型 的 性 能 

2. 数据 表示 中 的 语义 失 配 

攻 瑰 即使 不 叫 玫瑰 ,依然 芳香 如 故 。 但 是 对 于 训练 数据 来 说 ， 整 数 并 不 总 是 表示 看 上 去 那样 
的 意义 。 某 些 情况 下 ， 整 数 代 表 的 是 两 件 事 之 间 间 隔 的 小 时 或 天 数 。 男 外 一 些 情 况 下 ， 整 数 代 表 
类 别 的 编号 。 上 述 情况 的 区 别 已 经 在 前 面 章节 中 讨论 。 然 而 ， 尽 管 我 们 愿望 良好 ， 训 练 模 型 中 整 
数 数据 的 非 正 确 处 理 仍然 十 分 普遍 ,由 于 非 正 确 数 据 编码 表示 的 模型 实际 上 有 可 能 在 在 很 大 部 分 
时 间 内 性 能 表现 正常 ， 所 以 这 种 错误 可 能 很 难 调试 。 

这 种 错误 的 诊断 关键 是 , 对 最 终 模 型 的 内 部 结构 进行 考察 , 来 寻找 应 用 到 每 个 字段 的 多 个 权 
重 。 如 果 发 现 某 个 字段 的 具体 值 上 有 大 量 权重 , 那么 该 字段 被 看 做 是 类 别 型 或 单词 型 值 的 标识 符 
(ID )。 如 果 发 现 某 个 字段 只 有 单个 权重 , 那么 该 字段 被 看 做 是 连续 型 变量 。 不 管 模 型 如 何 看 竺 字 
段 ， 其 方式 应 该 和 我 们 看 竺 字段 的 方式 一 样 。 

上 述 规则 的 一 个 例外 发 生 在 拥有 的 整数 确实 是 整数 但 是 不 同 整数 值 的 个 数 有 限时 ,将 这 类 变 
量 看 成 是 类 别 值 可 能 会 非常 有 用 , 即使 它们 看 成 连续 值 更 正确 。 只 有 通过 实验 才能 真正 确定 上 述 
做 法 是 否 有 效 ， 但 是 只 有 整数 的 取 值 数目 很 小 时 ， 才 值得 尝试 一 下 上 述 的 小 技巧 。 

16.3.4 ”快速 读 取 数据 并 对 其 进行 编码 

对 许多 应 用 来 说 ， 前 面 童 节 中 介绍 的 数据 读 取 、 解 析 并 表示 成 回 量 的 方法 已 经 够 用 。 然 而 ， 
需要 注意 的 是 , Mahout 中 的 SGD 分 类 带 只 支持 单机 而 不 是 多 机 并 行 下 的 训练 。 这 个 限制 就 会 导致 
大 规模 训练 数据 下 的 训练 时 间 很 长 。 看 一 下 剖析 需 (profiler ) 就 会 发 现 Mahout SGD 模 型 训练 API 
中 的 大 部 分 时 间 都 花费 在 训练 数据 的 准备 而 不 是 真正 的 学 习 过 程 中 。 

为 加 速 起 见 ， 必 须要 深入 到 比 平 篆 Java 程 序 更 低 的 低层 。 例 如 ，String 数 据 类 型 非常 方便 ， 
它 内 置 了 Unicode 的 文 持 ， 并 且 拥 有 很 多 用 于 解析 、 正 则 表达 式 匹 配 等 操作 的 库 。 但 不 等 的 是 ， 
上 述 令 人 愉快 的 通用 性 同时 也 付出 了 高 复杂 性 的 代价 。 对 于 训练 数据 而 言 , 字符 集 和 内 容 上 的 假 
设 限制 通常 要 比 一 般 文本 严格 得 多 。 

训练 程序 遇 到 的 另 一 个 主要 的 速度 瓶 绒 来 自 于 处 理 中 的 复制 模式 。 在 这 种 模式 中 , 稍 常 通过 
构造 不 可 变 字 符 串 ( immutable string ) 代表 输入 行 来 处 理 数据 。 这 些 行 又 划分 成 多 个 分 别 代 表 输 
入 字段 的 新 的 不 可 变 字 符 串 。 于 是 ,如 果 这 些 字 段 表 示 的 是 文本 , 它们 又 会 在 词 条 化 过 程 中 划分 
成 多 个 新 的 不 可 变 字 符 串 。 而 词 条 可 能 进行 了 词 干 还 原 处 理 , 而 这 一 过 程 又 要 涉及 另 一 些 不 可 变 
字符 串 的 生成 。 

在 上 述 重 复制 的 编程 模式 下 , 完成 所 有 的 字符 串 内 存 分 配 需要 消耗 很 大 的 代价 , 很 多 人 都 集 
中 关注 通过 广泛 重用 数据 结构 来 减少 分 配 开 销 。 然 而 ， 实 际 开销 中 的 内 存 分 配 开销 并 没有 那么 
大 ， 主 要 开销 是 反复 复制 的 开销 。 另 一 个 开销 源 自 Java 在 构建 新 的 Stzing 对 象 时 涉及 的 对 每 个 
新 字符 串 的 散 列 编码 构造 过 程 。 散 列 编码 计算 的 代价 几乎 和 数据 复制 的 代价 一 样 大 。 

上 述 复 制 也 为 大 规模 加 速 提供 了 机 会 ， 我 们 可 以 通过 更 低层 抽象 和 避免 所 有 复制 来 实现 加 
速 。 在 更 低层 处 理 的 模式 下 ， 如 果 要 分 配 新 结构 时 ， 可 以 试图 来 引用 而 不 是 复制 原始 数据 。 这 些 
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小 结构 的 生命 周期 同时 也 十 分 短暂 ， 因 此 它们 的 分 配 和 收集 消耗 几乎 为 零 。 

下 面 给 出 了 一 个 字符 串 复 制 醒 式 的 例子 , 其 中 给 出 的 是 一 个 简单 的 数据 分 析 类 , 它 利 用 字符 
申 来 解析 由 制 表 (TAB ) 或 逗号 分 隅 的 数据 。 该 例 于 展示 了 一 个 催 单 、 清 晰 但 较 慢 的 解析 此 关 数 
据 的 方法 : 


class Line { 
private static final Splitter onTabs = Splitter.on(SEPARATOR}); 
private List<String> data; 
private Line(String line) { 
data = Lists.newArrayList(onTabs.split(line)); 
} 
public double getDoublel(int field}) { 
return Double.parseDouble(data.get (field)})).; 
} 


) 
很 显然 ,上面 的 代码 没有 给 出 重要 细节 ,但 是 思路 非常 清晰 。 上 述 类 将 代表 一 行 的 字符 串 划 
分 成 一 个 字符 串 列 表 。 这 种 划分 和 新 子 符 串 的 分 配 过 程 需 要 对 数据 反复 复制 。 此 外 ,字符 串 复 制 
中 ， 每 个 字符 需要 复制 两 个 子 市 。 
下 面 的 代码 清单 中 给 出 了 如 何 利 用 上 述 代码 来 从 包含 CSV 数 据 的 文件 中 解析 和 表示 数据 的 


代码 清单 16-1 解析 和 表示 CSV 数 据 的 代码 


public static void main{Sstringl] args) throws IOException { 


FeatureVectorEncoder[|] encoder = new FeatureVectorEncoder [FIELDS]: 
for {int 1 = 0; i < FIELDS; 1++)}) { 
encoder[i] = new ConstantValueEncoder("yvy" + 1}); ae 
， [2] | | 


long tO = System.currentTimeMillis().; 
Vector Vv = new DenseVector{({1000). 
BufferedReader in = new BufferedReader (new FileReader (args[1])).; 


String line = in.readLine!(); 
while (line 1= null) 1{ | 
VvV.aSsSsign(0).; 
Line x = new Line(lline); 二 一 … 解析 字符 串 
for {int i = 0; 1 < FIELDS;: 1i++) { 
encoderll] :addTovector(lbytell) nu < 一 一 对 每 个 字段 进行 编码 


XxX.getDouble(1i}, Vv);: 
} 
line = in.readLine!{).; 
} 
System.out.printf{"\nElapsed time = %S.3f s\n", 
(System.currentTimeMillis{() - t0) / 1000.0) 


} 

上 述 代码 以 每 次 一 行 的 方式 谈 入 数据 ， 然 后 利用 前 面 的 Dine 类 对 每 行进 行 解析 。 对 发 现 的 
每 一 个 字段 ， 用 一 个 特征 编 但 需 将 该 字段 加 入 到 特征 回 量 中 。 每 个 字段 都 有 一 个 独立 的 编码 融 。 
当 要 解析 百 万 行 数据 而 每 行 包含 100 个 数据 元 又 时 ， 上 述 代 码 清 单 中 通过 字符 串 解 析 和 编码 表示 
的 做 法 需要 在 一 台 2.8GHZ Core Duo (英特尔 双核 处 理 融 ) 处 理 右 的 机 带 上 运行 75~80 秒 钟 。 如 果 
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做 一 些 改进 ， 速 度 至 少 可 以 提高 到 原 有 的 S 倍 。 通 过 下 面 将 要 介绍 的 改进 方法 ， 完 成 相同 的 任务 
的 一 个 程序 只 需要 不 到 15 秒 。 


Ly 


1. 分 割 字 市 ， 而 非 邓 和 全 

加 速 的 第 一 步 是 使 用 大 规模 字 世 的 IO， 并 且 不 将 字 布 转换 成 字符 串 从 而 避免 对 输入 卢 段 的 反 
复 复 制 。 在 Line 类 中 ， 每 一 行 从 输入 中 复制 ， 然 后 当 转 换 成 字符 串 时 又 一 次 进行 复制 ， 再 接 看 在 
解析 出 每 个 片段 时 再 次 复制 。 上 述 所 有 过 程 使 得 程序 容易 理解 和 调试 ,但 是 肯定 降低 了 运行 的 速度 。 

对 很 多 数据 文件 来 说 ， 避 人 免 到 Java 字 符 串 的 转换 是 一 件 好 事情 ， 这 是 因为 文件 通常 都 有 一 个 
可 以 通过 ASCII 字 符 集 来 表示 的 限定 数据 格式 ， 其 中 每 个 字符 通过 单个 字 节 来 编码 。 而 Java 宇 人 符 
需要 两 倍 的 字 节 空间 ， 移 动 它 们 需要 两 倍 的 内 存 市 宽 。 更 进一步 ， 通 过 字 布 数组 ， 可 以 几乎 完全 
避免 复制 操作 。 如 果 正 在 考虑 的 字段 包含 数字 ,那么 使 用 稼 规 的 Java 原 语意 味 着 这 些 字 段 将 被 一 
些 例 程 进行 解析 ， 这 些 例 程 能 够 将 通常 的 Unicode 字 符 串 转换 成 数字 。 由 于 基本 的 数字 在 Unicode 
中 出 现 多 次 ， 因 此 上 述 转换 并 不 像 听 起 来 那么 容 多 。 如 朱 所 有 数据 都 是 ASCII 格 式 ， 那 么 上 述 转 
换 要 比 和 完 将 数据 转换 成 Unicode 然 后 再 将 这 种 通用 表示 结果 转换 成 数字 要 简单 得 多 。 

代码 清单 16-2 给 出 了 一 个 Line 类 的 修改 类 FastLine， 它 使 用 ByteBuffer 来 避免 复制 。 该 
代码 也 是 Mahout 样 例 中 SimpleCcsvExamples 程 序 的 一 个 内 部 类 。 Fastline 也 采用 一 种 高 度 专 
用 的 解析 方法 来 解析 数字 ， 它 能 解析 由 1、2 位 ISO 拉 丁字 符 集 数字 构成 的 整数 。 
代码 清单 16-2” 字 和 级 CSV 解 析 代 码 


private static class FastLine { 
private ByteBuffer base; 
private IntArrayList start = new IntArrayList!().;: 
private IntArrayList length = new IntArrayList!{();: 
Private FastLine(BRyteBuffer base) { 
this.base = base; 
} 
Public static FastLine read(ByteBuffer lbuf}) { 
it (but remaining(} == 0) return null; 
FastLine r = new FastLine (buf).: _ 记得 这 里 是 引用 
rr.Sstart .addqlbuft .position()):;: 
int offset = buf.position!(); 
while (offset < buf.limit{(})) { 
int ch = buf.get(); 
Ss _ | 记得 行 尾 即 字段 结 导 
CaSe '\N': 
r.length.add(offset - r.start.get(r.length.size{})) - 1),， 
return 工 ; 
Case SEPARATOR CHAR: 


避免 装 箱 (boxing) 的 
特定 集合 (collection) 


r.length.add(offset - r.start.get(r.length.size{}) - 1); 

r.start.add (offset);: 

break,; 因 注意 下 一 个 字段 开始 
Qefault: 


} 
} 
throw new IllegalArgumentException ( 
"Not enough bytes in buffer"), | 假定 缓冲 区 中 包含 完整 的 一 行 
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Public double GetDoupbplelInt field) ({ 
int offset = start.get (field).; 
int size = length.get (field).; 
switch (size) { 


Case 1: 

return base.get (offset) -~ '0'. 
CASE 2: 

return (base.get{(offset}-'0') * lO0O+base.get(offset + 1) -~- 'O0'， 
default: 

double r = 0 

for (int i = 0; i < size; 1++) 1{ 

r= 10*rr+ base.getltoffset + 1}) -~ 0; 


} 


return Ir; 


} 
} 


上 述 代码 清单 中 Fastline 类 使 用 Mahout 集 合 包 中 的 IntArrayLists 来 存放 偏 移 和 长 度 。 
这 可 以 市 来 两 个 效果 : 一 是 避免 整数 的 装 箱 和 拆 箱 过 程 ， 二 是 学 段 保存 为 原始 字 节 数组 的 引用 从 
而 避免 复制 。 

上 述 的 文件 数据 解析 基于 多 个 很 强 的 假设 , 这 些 假设 依赖 于 存在 某 些 限制 的 输入 数据 。 第 一 ， 
假设 ByteBuffer 总 有 足够 的 数据 来 完成 当前 行 。 第 二 ， 数 据 假定 采用 Unix 类 型 的 行 分 隔 符 ， 即 
只 有 一 个 换行 符 而 不 包含 回 车 符 。 第 三 ， 假 设 只 使 用 ASCII 字 符 子 集 。 

上 述 假设 使 得 在 实现 时 可 以 相当 目 由 ， 从 而 恋人 和 解析 数据 的 时 间 不 到 基于 String 代码 实 
现 同样 操作 所 花费 的 时 间 的 1/3。Fastline 很 好 ， 但 却 非 全 部 。 

2. 直接 的 数值 编码 器 的 接口 

数值 可 以 采用 多 种 方式 编码 成 器 量 。 对 于 连续 变量 ， 可 以 使 用 continuousValueEncoder 
并 将 数值 以 学 符 串 的 方式 传 信 ， 这 种 做 法 在 前 面 草 方 中 可 以 看 到 。 男 一 方面 ， 如 果 已 经 以 浮 点 形 
式 得 到 了 想 要 的 值 ， 那 么 就 可 以 输入 一 个 NULL 字 符 串 和 以 权重 方式 表示 的 权重 。 

在 一 个 直接 的 字 贡 解析 融 中 , 可 以 快速 访问 字段 值 而 不 需要 将 其 先 转换 成 字符 串 然 后 转换 成 
浮 点 表示 。 这 可 以 使 得 constantValueEncoder 中 的 权重 字段 使 用 非常 具有 吸引 力 。 下 面 的 代 
码 给 出 了 上 述 过 程 。 
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public static velaQ main(Sstring[] args) throws IOException { 
FeatureVectorEncoderl[l] encoder = new FeatureVectorEncoder [FIELDS]:; 
for (int 1 = 0; 1 < FIELDS; 1++) { 
encoder[i] = new ConstantValueEncoder(''v'" + 工 )， 
} 
Tong to = System.currentTimeMill]is{().: 
Vector YY = new DenseVectort1000).， 


ByteBuffer buf=ByteBufter.wrapl! 
FileUtils.readrFrileToByteArray (new Filelargs[1]))}))}):; 

FastLine line = FastLine.read(buf): 

while (line != null) f 


v.assign(0).; 


for (int i = 0; i < FIELDS; 1i++}) { | 使 用 Nuzz 字 符 串 值 
encoder[i] .aqQaQToVector ( (byte[]) null, 


line.getDouble(i}, v); 
} 
lJ]ine = FastLine.read'lbut). 
} 
System.out.printf({"\nElapsed time = %.3f s\n", 
(System.currentTimeMillis{(} - t0)} / 1000.0); 
} 


上 述 代码 除了 使 用 Fastline 而 不 是 Line 之 外 ， 其 他 部 分 和 基于 字符 串 的 编 但 程序 很 类 似 。 
这 里 构建 了 相同 的 编码 硕 ， 仍 然 一 行 行 地 谈 和 数据， 但 是 来 目的 是 Fastline 而 不 是 字符 串 水 平 
的 输入 。 这 里 对 每 个 字段 的 编码 与 前 面 有 少许 不 同 ， 这 是 因为 FastLine 类 将 字 市 表示 转换 成 数 
字 来 避免 编 但 大 来 完成 这 一 任务 。 

上 面 利用 Fast1line 的 版 本 大 概 比 基于 字符 串 的 版 本 要 快 5 倍 , 前 面 已 经 提 到 过 这 一 点 , 但 是 
这 种 直接 数值 编码 技巧 的 效果 单独 拿 出 来 看 甚至 更 加 令 人 印象 深刻 。 在 处 理 百 万 行 数据 时 , 忽略 
数据 解析 的 时 间 ， 从 字 市 表示 中 对 所 有 数值 下 接 编 码 需 要 4~5 秒 的 时 间 ， 但 从 字符 串 格 式 来 编码 
则 需要 40 多 秒 钟 。 

上 述 所 有 加 速 方式 的 整体 效果 是 , 不 需要 费 多 少 周折 , 就 可 以 对 原始 数据 实现 15 MBit/s 的 读 
取 、 解 析 和 编码 速度 。 通 过 使 用 多 线程 读 取 方式 ， 整 个 转换 率 可 以 很 容易 地 与 多 主轴 磁盘 传输 的 
速度 相 匹 配 。 如 果 采 用 包含 多 个 交互 变量 的 更 精细 的 编码 过 程 ， 整 个 编码 开销 将 会 有 所 上 升 , 但 
是 上 述 改 进 方式 仍然 具有 很 大 影 啊 。 

如 果 在 运行 大 型 程序 时 ， 上 述 优化 是 值得 的 ， 特 别 是 直接 使 用 低层 crossFoldLearner 或 
OnlineLogisticRegression 对 象 而 没有 AdaptiveLogisticRegression 介 入 (mediation ) 
时 更 是 如 此 , 这 是 因为 这 些 低层 的 学 习 絮 本 坊 很 快 因此 读 入 训练 数据 可 能 是 限制 性 能 的 因 系 。 为 
一 方面 , 使 用 更 抽象 的 基于 字符 串 的 方法 可 以 使 得 代码 的 编写 和 调试 更 加 容易 ,并且 在 数据 比较 
怪异 时 不 易 受 到 意外 。 

一 旦 (快速 ) 读 取 并 (快速 ) 转换 了 数据 ， 下 一 个 性 能 瓶 领 可 能 是 将 分 类 硕 集成 到 服务 硕 这 


个 过 程 。 
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Mahout 分 类 需 的 集成 通常 就 是 一 个 简单 的 建立 网 络 化 服务 的 过 程 。 因此 , 通常 网 络 化 服务 所 
要 考虑 的 否 吐 紊 、 延 迟 和 服务 更 新 等 问题 同样 要 在 这 里 加 以 考虑 。 由 于 Mahout 分 类 冀 通 常会 集成 
到 种 要 很 蜗 速 度 的 应 用 当中 ， 所 以 这 些 问 题 在 这 里 考虑 时 稍 有 不 同 。 但 同时 在 菏 种 程度 上 说 , 相 
对 于 大 部 分 服务 而 言 ， 基于 Mahout 分 类 胡 的 服务 相对 要 简单 一 些 , 这 是 因为 它们 是 无 状态 的 。 这 
种 无 状态 性 允许 琐碎 的 水 平 扩展 。 

这 一 节 将 介绍 如 何 计 划 并 实际 将 Mahout 分 类 融 集 成 到 一 个 服务 架构 中 。 然 后 , 在 16.5 方 中 将 
把 这 些 思想 综合 在 一 起 用 到 一 个 实际 运行 的 分 类 服务 融 例 子 中 。 
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16.4.1 提前 计划 : 集成 中 的 关键 问题 


尽管 基于 Mahout 的 服务 具有 简单 的 优点 ,但 是 为 了 充分 发 挥 Mahout 的 潜力 ， 在 构建 这 种 服 
务 之 前 仍然 需要 考虑 一 些 天 键 问 题 。 这 些 问题 包括 客户 闫 和 服务 融 冰 职责 的 最 佳 划分 方法 、 检 查 
生产 数据 和 训练 数据 的 不 同 、 速 度 的 设计 及 模型 更 新 的 处 理 等 。 

1. 职责 分 解 

将 分 类 模型 集成 到 分 类 服务 中 会 遇 到 的 一 个 十 分 关键 的 架构 方面 的 选择 是 系统 客户 并 和 服 
务 禹 端 职 责 的 分 解 。 如 采 分 解 考虑 得 十 分 全 面 的 话 , 会 大 大 提高 系统 性 能 并 有 助 于 保障 设计 能 够 
应 对 未 来 的 考验 。 

一 般 而 言 , 很 重要 的 一 点 是 确保 服务 带 处 理 特征 编码 和 模型 评 佑 。 但 是 ,关于 在 客户 端 还 是 
服务 大 端 到 底 各 日 做 多 少 特 征 提 取 , 这 里 存在 一 个 中 间 地 市 。 例 如 ， 如 来 客户 端 拥有 一 个 用 户 ID 
和 一 个 网 页 URL, 但 同时 服务 琢 需 要 从 用 户 资 料 获取 一 些 信 息 并 且 基 于 网 页 内 容 来 获得 一 些 内 容 

性 征 , 那么 不 论 是 客户 病 还 是 服务 胡 喘 部 可 以 进行 必要 的 与 用 户 资 料 数据 库 和 网 页 内 容 或 特征 绥 
冲 区 的 联结 操作 。 如 采 在 客户 痪 进行 这 些 联结 和 特征 提取 操作 , 那么 留 给 服务 融 闪 运行 的 任务 将 
更 加 有 限 , 这 样 可 能 就 会 得 到 一 个 更 可 靠 的 服务 带 。 而 在 服务 右 问 进行 上 述 联 结 和 特征 提取 操作 
将 使 得 某 些 类 型 的 缓冲 处 理 更 加 容易 ， 并 且 会 对 客户 端 隐藏 模型 的 更 多 细节 。 

图 16-3 给 出 了 如 何 对 客户 闫 和 服务 着 痪 的 职责 进行 分 解 的 例子 。 


| | 
ww ; 
J 特征 编 友 


肯定 在 客 / 优先 在 服务 肯定 在 服务 
户 端 运行 ， ”如 闹 运行 如 问 运行 


图 16-3 ”和 资料 数据 ( 如 用 户 资料 ) 的 联结 操作 优先 考虑 在 服务 器 端 运行 ， 但 是 它们 
也 可 以 在 客户 端 运行 。 特 征 编码 应 该 肯定 在 分 类 服务 器 端 运行 

一 条 好 的 设计 原则 是 ,不管 客户 站 程序 已 经 拥有 的 数据 格式 如 何 ， 模 型 服务 兹 剖 部 要 接受 。 
如 果 可 能 的 话 , 除非 在 模型 服务 存在 之 前 已 经 处 理 , 否则 服务 融 不 必 对 客户 端 已 经 做 的 数据 准备 
工作 进行 进一步 的 处 理 。 上 述 原 则 的 一 个 主要 的 例外 情况 是 ， 当 允许 模型 服务 具 联 结 资 源 时 ,会 
需要 访问 那些 对 客户 剖 已 经 可 用 的 安全 资源 。 这 种 情况 下 , 准备 特征 编码 时 所 需要 的 联结 操作 可 
能 不 得 不 在 客户 站 实现 。 

2. 实时 特征 是 不 同 的 

将 模型 部 著 到 产品 中 的 一 个 主要 问题 是 产品 中 给 分 类 带 的 数据 往往 与 训练 分 类 上 右 时 构造 的 
数据 有 很 大 不 同 。 这 些 不 同 通 种 也 非 有 意 为 之 ,它们 会 导致 程序 出 现 隐 牙 的 钳 洞 ， 显 然 ， 如 打 对 
上 述 问题 处 理 不 当 会 导致 很 差 的 分 类 性 能 。 
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那么 可 能 遇 到 的 到 底 是 哪 类 不 同 ? 有 些 不 同 来 目 时 间 变 化 过 程 , 这 与 目标 泄漏 有 些 类 似 。 比 
如 ， 假 设想 预测 用 户 是 否 将 会 购买 某 个 特定 商品 , 并 且 问 题 的 预测 变量 基于 用 户 资料 的 内 容 。 在 
建立 模型 的 训练 数据 时 , 很 容易 可 以 得 到 收集 训练 数据 时 而 不 是 购买 决策 时 的 用 户 资料 。 如 果 购 
买 过 程 完成 后 会 有 额外 信息 存储 在 用 户 资料 中 , 那么 任 一 使 用 随时 间 变 化 的 资料 的 模型 在 给 定 非 
变化 资料 时 表现 很 差 。 

3. 记录 分 类 请 求 

记录 所 有 的 分 类 请 求 是 检查 生产 数据 和 训练 数据 何 时 不 同 的 最 佳 方法 之 一 , 甚至 在 分 类 系统 
准备 好 部 署 之 前 就 开始 记录 。 记录 一 小 段 时 间 之 后 , 可 以 使 用 任意 一 个 自己 喜欢 的 技术 来 为 所 讨 
论 的 时 间 有 段 提取 出 训练 数据 ， 然 后 将 提取 中 的 数据 与 记录 的 数据 进行 比较 。 如 果 它 们 不 同 , 训练 
数据 提取 过 程 一 定 要 进行 某 种 程度 的 改变 以 避免 提取 随时 间 变 化 的 训练 样本 。 最后, 可 能 只 有 下 
接 记 录 的 数据 才能 用 于 训练 。 

4. 速度 上 的 设计 

构建 分 类 系统 时 速度 上 的 考虑 往往 会 陷 人 互相 矛盾 的 两 个 极端 。 当 某 个 Mahout 分 类 器 正确 集 
成 时 ， 当 然 有 可 能 达到 极 高 的 速度 。 如 果 建 立 的 服务 只 是 对 单个 输入 记录 评估 单个 模型 ， 那 么 分 
类 服务 器 不 必 完 成 任何 大 开销 的 联结 操作 , 模型 的 评估 过 程 可 能 会 很 快 导致 网 络 的 开销 占据 主要 
地 位 。 速 度 问题 将 简单 归结 为 寻找 一 个 驱动 大 量 请 求 通过 服务 器 的 访问 方法 。 

例如 ， 不管 请 求实 际 需 要 的 时 间 多 短 ， 一 个 本 地 运行 的 Thrift 服 务 器 大 概 需 要 比 50~100 微 秒 
略 少 一 点 的 时 间 来 完成 一 个 服务 天 请 求 。 由 于 一 个 典型 模型 评估 过 程 仅 仅 需 要 大 概 一 千 个 浮 点 运 
算 ， 因 此 它 的 完成 时 间 最 多 不 会 超过 一 二 十 微 秒 ， 也 就 是 说 900% 的 时 间 都 花 在 其 他 开销 上 。 如 果 
考虑 线程 和 网 络 传输 时 间 的 话 , 否 吐 率 会 比 上 面 的 数字 略 高 , 但 是 很 显然 大 部 分 时 间 都 不 是 花 在 
模型 评估 上 。 在 这 种 系统 中 ,关键 要 集中 对 网 络 延迟 进行 优化 处 理 。 为 达到 最 高 速度 ， 必 须要 将 
模型 集成 到 客户 端 代码 中 来 彻底 避免 服务 器 来 回 处 理 。 这 种 直接 的 集成 方式 使 得 每 个 模型 评估 的 
延 民 最 小 ， 但 是 它 可 能 大 幅 加 剧 模型 更 新 的 复杂 性 。 


提示 “如果 需要 一 次 评估 一 个 样本 ， 那 么 就 集中 考虑 减少 网 络 往返 的 次 数 来 使 得 评估 延迟 最 小 
并 考虑 客户 端 模型 评估 。 而 对 于 模型 更 新 来 说 ， 可 能 需要 某 类 服务 器 来 简化 模型 更 新 内 
容 的 分 发 而 不 是 依赖 于 某 个 可 以 像 本 地 文件 一 样 访 问 的 文件 。 


在 速度 区 间 的 中 间 段 ， 分 类 模型 的 茶 些 用 法 要 求 一 次 评 佑 很 多 配 型 ,或 者 允许 很 多 特征 回 量 
在 单个 服务 器 请 求 中 一 起 传输 。 由 于 在 这 种 批 处 理 评 估 方 法 中 网 络 延迟 开销 可 以 被 多 个 模型 计算 
过 程 所 分 担 , 因此 导致 效率 的 实际 提高 。 相 对 于 每 个 服务 天 请 求 中 神 包 含 单 个 评 佑 的 情况 ,延迟 
本 吴 并 没有 降低 ， 但 是 每 次 请 求 中 能 够 完成 的 计算 量 大 幅度 提高 。 


注意 每 次 服务 器 请 求 中 完成 大 量 的 模型 评估 过 程 是 一 件 好 事 ， 特 别 对 于 吞吐 率 来 说 更 是 如 此 。 
很 多 目标 系统 需要 对 大 量 对 名 进行 模型 评估 因此 能 够 允许 这 种 优化 处 理 。 
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在 速度 区 间 的 极 问 段 ， 系 统 通 常 需 要 对 极 大 量 的 输入 进行 计算 处 理 。 例 如 ,下 一 章 的 计算 宫 
销 系统 需要 对 每 个 用 户 计 算数 十 万 到 数 百 万 的 商品 ， 也 就 说 有 多 少 商品 就 要 做 多 少 次 模型 计算 。 
每 个 用 户 提 区 一 个 请 求 ， 然 后 使 用 用 户 参 数 、 商 品 参数 及 用 户 - 商 品 交 互信 息 来 建立 一 个 特征 加 
量 。 该 系统 中 的 模型 同时 也 相当 复杂 , 每 件 商品 都 会 涉及 数 百 或 数 千 个 非 去 特征 。 在 这 种 情况 下 ， 
系统 计算 的 时 间 可 能 会 达到 几 百 坚 秒 ， 此 时 计算 时 间 主 导 了 整个 架构 的 决 宁 过 程 。 

5. 模型 协同 更 新 

对 于 一 个 处 理 分 类 请 求 流 的 生产 系统 来 说 ， 期 望 100% 的 正常 运行 时 间 相 当 和 常见 。 由 于 分 类 
希 通 稼 是 无 状态 的 , 通过 在 负载 均衡 希 后 面 挂 载 多 个 分 类 服务 硕 构 成 的 服务 硕 池 , 可 以 满足 上 述 
正 篆 运行 时 间 的 需求 。 每 次 分 类 模型 更 新 并 发 布 到 后 产 环 境 时 ， 上 述 服务 需 必 须要 加 载 新 模型 并 
利用 它们 来 分 类 。 有 时 候 可 能 还 有 个 额外 需求 ， 即 要 求 模型 的 更 新 几乎 同时 对 服务 磊 池 中 的 所 有 
服务 套 可 见 从 而 维持 服务 需 间 的 一 致 性 。 

不 管 确切 的 需求 如 何 , 我 们 高 度 推荐 使 用 一 个 协调 服务 来 管理 模型 更 新 并 提供 活动 服务 需 列 
表 。 在 这 类 服务 中 ，Apache ZooKeeper 是 目前 为 止 最 流行 的 一 种 ,我 们 强烈 推荐 使 用 。Zookepper 
人 允许 连接 一 个 小 型 服务 融 集 群 , 并 提供 API 像 访问 普通 文件 系统 一 样 访问 集群 。 除了 人 简单 的 创建 、 
蔡 换 和 删除 函数 之 外 ，ZooKeeper 还 提供 更 改 通知 和 一 系列 一 致 性 保障 功能 ， 这 些 功 能 能 够 简化 
高 度 可 徘 的 分 布 式 系 统 的 创建 过 程 ， 甚 至 在 服务 旭 朋 沉 、 维 护 斯 和 网 络 分 区 时 也 能 完成 。 

基于 ZooKeeper 建 立 模 型 协同 更 新 的 架构 可 以 十 分 简单 ， 特 别 是 不 需要 精确 同步 更 新 时 更 是 
如 此 。 在 这 种 架构 中 ，ZooKeeper 保 留 了 模型 的 配置 情况 。 分 类 服务 需 会 请 求 配 置 更 改 的 通知 信 
上 县,， 当 某 个 模型 正在 工作 时 , 这 些 服务 各 会 维护 一 个 指示 文件 来 告诉 分 类 客户 问 哪 个 服务 融 正 在 
处 理 请 求 。 而 分 类 客户 端 通过 询问 ZooKeeper 来 确定 哪个 分 类 服务 器 可 用 。 

ZooKeeper 中 的 数据 可 以 按照 下 列 目 录 结 构 来 组 织 : 


:model-farm/ 


model-to-serve 
CuUurrent-servers/ 
Ll S30 
| 
L011 7B: 


在 上 述 日 录 结 构 中 ，/model-farm/model-to-serve 文 件 中 包含 了 所 有 服务 器 在 用 的 模型 序列 化 
版 本 的 URL 地 址 , 每 个 活动 服务 各 在 启动 时 会 读 取 该 文件 并 在 任意 更 改 时 让 ZooKeeper 提 供 通 知 。 
此 外 ， 每 个 服务 吉 每 30~60 秒 会 轮 询 该 文件 以 防 通知 没有 设置 到 位 ， 这 可 能 是 由 于 服务 需 启 动 的 
时 候 文 件 还 不 存在 。 

当 ZooKeeper 通 知 服务 咒 革 个 使 用 模型 有 更 改 时 ， 服 务 需 会 下 载 模型 的 序列 化 形式 并 给 出 模 
型 的 一 个 新 实例 。 然 后 ， 该 新 模型 将 用 于 所 有 后 续 的 请 求 。 一 旦 新 模型 正当 安装 的 话 ， 服 务 器 会 
以 唯一 的 名 字 在 /modelfarnycurrent-servers 目 录 下 建立 一 个 文件 。 并 且 要 么 在 文件 名 上 要 么 在 文件 
内 容 上 , 该 文件 会 包含 客户 端 问 服务 天 端 发 送 请 求 所 必需 的 信息 。 这 些 信 息 可 能 包含 主机 名 和 端 
口号 。 当 机 器 拥有 多 个 网 络 接口 时 ， 需 要 注意 确保 处 理 的 正确 性 。 

图 16-4 的 梯形 图 给 出 了 新 模型 部 署 的 一 个 典型 时 间 序 列 。 


控制 进程 ZooKeeper 服务 器 1 服务 器 2 模型 档案 
启动 
启动 装 
载 过 程 装 入 模型 
通告 可 用 性 
启动 
部 署 新 
模型 通告 可 用 性 
装 入 模型 
ZK 通知 A 
装 入 模型 
通告 可 用 性 


图 16-4 ”如何 使 用 ZooKeeper 协 调 模型 部 署 的 示意 图。 控制 进程 、 服 务 名 1 和 服务 右 2 之 
间 通 过 ZooKeeper 通 信 ， 而 当 模 型 修改 时 ZooKeeper 会 通知 服务 龙 1 和 服务 天 2 


在 图 16-4 描 述 的 序列 中 ,假定 ZooKeeper 一 开始 时 市 有 模型 设 定 值 。 当 服务 硕 1 司 动 时 ， 它 会 
从 ZooKeeper 装 和 人 设 定 值 然后 载 人 模型 。 当 模型 全 部 载 人 可 以 提供 服务 时 , 服务 硕 1 会 在 ZooKeeper 
上 建立 一 个 文件 来 表示 它 已 经 可 用 。 当 服务 咒 2 在 不 久之 后 局 动 时 ， 同 样 会 执行 上 述 过 程 。 当 挖 
制 进程 在 ZooKeeper 上 用 新 模型 进行 更 新 时 ， 通 知 消 息 会 传送 给 服务 各 1 和 服务 人 2， 于 是 模型 下 
载 和 可 用 性 通告 过 程 会 反复 进行 。 

上 述 过 程 理解 起 来 十 分 简单 ， 实 现 起 来 也 非常 容易 。 但 是 ， 由 于 所 有 服务 冀 运 行 相同 的 模型 
并 几乎 同时 更 新 模型 ， 所 以 上 述 过 程 具有 显著 的 局 限 性 。 不 难 想象 , 由 于 每 次 完成 模型 装载 过 程 
之 后 服务 各 就 会 切换 到 新 模型 ,上述 同 时 更 新 会 叶 致 整个 集群 的 服务 性 能 下 载 ， 而 效 载 过 程 也 可 
能 导致 在 短 时 间 内 不 同 服务 硕 给 出 的 分 类 绪 果 不 同 。 类 侯 地 ， 紧 接 痢 新 模型 朔 和 之后， 服务 硕 应 
答 可 能 会 有 某 种 程度 的 延迟 , 因此 所 有 服务 器 同时 陷 人 这 种 低 质量 服务 状态 , 这 可 能 不 是 我 们 所 
想 要 的 。 还 有 , 如 采 模 型 文件 很 大 , 那么 所 有 服务 右 同 步 读 取 文件 可 能 会 因 网 络 开 销 而 造成 问题 。 

下 面 给 出 了 一 个 目录 结构 ， 展 示 的 是 如 何 对 更 新 进行 协调 来 完成 一 个 更 译 层 的 模型 更 新 过 程 : 

/model-~-farm/ 

should-load/ 
node-10.1.5.30 
node-10.1.5.31 
node-10.1.5.32 
node-10.1.5.33 

currently-loaded/ 
node-10.1.5.30 
node-10.1.5.31 
node-10.1.5.32 
node-10.1.5.33 

model-to-serve/ 


node-10.1.5.30 
node-10.1.5.31 
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node~-10.1.5.32 
node-10 ,1.5.33 


在 上 述 日 录 结 构 中 , 项 层 的 model-farm 目 录 是 整个 模型 集群 的 名 字 。 在 该 目录 下 , should-load 
目录 下 包含 了 以 每 个 服务 器 地 址 命名 的 多 个 文件 ， 其 中 每 个 服务 怖 只 对 应 一 个 文件 。 每 个 文件 的 
内 容 包含 URL 和 MD5 散 列 列表 ， 这 些 信息 可 以 用 于 获取 和 校 验 模型 的 内 容 。 与 should-load 并 列 的 
是 currently-loaded 目 录 ， 它 包含 多 个 短期 文件 ， 其 中 每 个 活动 模型 服务 器 构建 一 个 短期 文件 ， 文 
件 中 包含 所 有 当前 该 服务 如 上 疙 入 模型 的 MD5 散 列 列表 。 最 后 , 另 一 个 与 should-load 并 列 的 目录 
是 model-to-serve， 它 包含 的 是 多 个 文件 ， 其 中 每 个 服务 兹 市 点 对 应 一 个 文件 ， 其 中 包含 的 是 用 于 
所 有 到 来 的 请 求 的 单个 模型 的 散 列 值 。 

在 操作 中 ， 每 个 模型 服务 融会 对 should-load 目 录 和 model-to-serve 文 件 维护 一 张 监 视 表 。 
should-load 目 录 发 生变 化 表示 模型 应 该 装 入 或 锰 载 ， 而 model-to-serve 文 件 发 生变 化 表示 所 有 后 续 
请 求 应 该 导 癌 所 指示 的 模型 。 每 当 模 型 狼 入 或 者 艺 载 时 ，currently-loaded 目 录 下 相应 的 临时 文件 
会 更 新 。 

相对 于 前 面 的 模型 , 这 种 目录 结构 能 够 在 复杂 实现 的 同时 允许 相当 的 灵活 性 。 这 种 灵活 性 能 
够 允许 新 模型 在 基本 同步 之 前 承 能 在 多 台 机 带 上 载 人 运行 。 它 还 能 允许 只 在 一 台 服 务 硕 上 到 入 并 
运行 新 模型 , 这 样 可 以 在 该 模型 推广 到 其 他 所 有 服务 咒 之 前 测试 它 的 稳定 性 。 使 用 MD5 散 列 人 允许 
新 内 容 下 的 URL 的 重用 性 ， 并 且 可 以 允许 服务 硕 来 校 验 它们 是 否 装 入 了 预期 的 模型 。 

实际 当中 , 可 能 需要 将 上 述 模型 扩展 到 控制 多 个 模型 服务 硕 农 场 ,， 或 者 将 模型 推广 到 逐步 增 
多 的 机 需 的 过 程 目 动 化 。 对 于 服务 融 来 说 更 新 其 状态 文件 来 指示 能 够 处 理 的 流量 也 是 一 件 很 普 衣 
的 事情 。 在 选择 发 送 服 务 需 对 象 时 ， 发 送 请 求 的 客户 端 可 以 使 用 这 些 指示 信息 。 

另外 需要 记 住 的 是 即使 使 用 内 部 包含 多 个 模型 MjAdaptiveLogi sticRegression 来 训练 
模型 ， 也 只 需要 从 下 面 的 crossFoldLearners 中 保存 一 个 模型 。 这 一 点 非常 重要 ， 这 是 因为 
AdaptiveLogisticRegression 包 含 了 大 量 分 类 磊 ， 而 每 个 分 类 禹 内 部 部 潜在 包含 大 量 的 系数 矩 
阵 。 如 采 特 征 癌 量 很 大 ， 那 么 序列 化 的 AdaaptiveLogisticRegression 可 能 实际 上 会 有 数 百 兆 。 


16.4.2 ”模型 序列 化 


在 Mahout 0.4 中 ，SGD 和 朴素 贝 叶 斯 模型 的 序列 化 方式 不 同 。SGD 模 型 共享 一 个 称 为 
ModelSerializer 的 辅助 类 ， 该 辅助 类 人 处理 所 有 SGD 模 型 的 序列 化 及 反 序列 化 。 与 此 不 同 ， 朴 
泰 贝 叶 斯 模型 只 序列 化 为 训练 中 创建 的 多 个 文件 的 副产品 , 而 朴素 贝 叶 斯 模型 的 反 序列 化 并 不 基 
于 单个 方法 来 实现 ， 而 是 显 式 将 上 述 文件 读 回 到 内 存 中 。 

在 Mahout 的 未 来 版 本 中 ， 有 可 能 将 ModelSerializer 或 类 似 的 类 扩展 为 能 够 同时 处 理 SGD 
模型 和 朴素 贝 叶 斯 模型 。 在 那 之 前 , 朴素 贝 叶 斯 模型 的 序列 化 和 反 序 列 化 过 程 仍 然 是 个 微妙 而 又 
高 度 变化 的 过 程 。 在 更 可 用 的 序列 化 接口 完成 之 前 , 这 也 意味 着 朴素 贝 叶 斯 模型 的 部 署 要 使 用 前 
面 描述 的 命令 行 界 面 而 不 是 以 编程 的 形式 来 实现 。 

对 SGD 模 型 使 用 ModaelSerializer 类 

ModelSerializer 类 提供 了 将 模型 序列 化 为 文件 和 字符 串 的 静态 方法 。 这 个 类 的 使 用 就 像 
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下 面 给 出 的 片段 所 示 那 样 人 简单 ,该 片段 中 来 日 AdaptiveLogisticRegression 的 某 个 模型 和 完 
整 的 集成 模型 分 别 保存 在 不 同文 件 中 : 


if {learningAlgorithm.getBest{() != null}) { 


ModelSerializer.writeBinary{"best.model", 
learningAlgorithm.getBest{) .getPayjoad!(} .getLearner () ) :; 


ModelSerializer.writeBinary ("complete.model", learningAlgorithm); 
所 有 不 同类 型 的 SGD 模 型 都 可 以 使 用 上 述 相同 的 方法 来 序列 化 。 
从 文件 中 谈 取 一 个 模型 就 像 下 面 那样 简单 : 


learningAlgorithm = ModelSerializer.readBinary ( 
new FlileInputstream{"complete.model"), 
AdaptiveLogisticRegression.class); 


onlineLogisticRegression bestSsubModel = ModelSerializer.readBinary ( 
new FileInputSstream("best.model"}, OnlineLogisticRegression.class); 


上 述 片 段 给 出 了 ModelSerializer 的 两 种 用 法 。 第 一 种 用 法 可 能 是 用 于 重新 装 和 人 -个 完整 
的 拥有 子 模 型 的 AdaptiveLogisticRegression 类 。 为 一 种 用 户 是 用 于 羔 入 单个 的 
OnlineLogisticRegression, 其 可 能 是 AdaptiveLogisticRegression 中 组 成 模型 的 一 个 。 
需要 注意 的 是 ， 要 问 readBinary 提 供 相应 的 类 ， 该 方法 才能 知道 需要 构建 和 返回 的 对 象 类 型 。 

当 将 SGD 模型 序列 化 为 分 类 希 进 行 部 署 时 ， 通 稼 最 好 的 方法 是 只 序列 化 
AdaptiveLogisticRegression 中 性 能 最 优 的 子 模型 。 最 终 得 到 的 结果 序列 化 文件 将 会 比 序列 
化 AdaaptiveLogisticRegression 对 象 中 包含 的 整个 集成 模型 所 得 到 的 结果 小 100 倍 。 此 外 ， 
当 有 数据 需要 分 类 时 ， 由 于 只 有 AdaptiveLogisticRegression 对 象 中 的 最 佳 子 模 型 被 使 用 ， 
而 其 他 模型 都 被 忽略 ， 因 此 个 体 模型 更 适合 部 署 。 

另 一 方面 ， 如 果 序 列 化 模型 时 要 求 后 面 还 可 以 继续 训练 ， 那 么 序列 化 整个 


AdqaptiveLogisticRegression 或 许 是 更 好 的 思路 。 


16.5 ”案例 : 一 个 基于 Thrift 的 分 类 服务 器 


将 一 个 工作 分 类 服务 融 的 各 部 分 拼 成 一 起 可 能 是 件 令 人 生 芋 的 事情 。 为 了 帮助 实现 这 一 点 ， 
本 帮会 给 出 一 个 完整 的 工作 样 例 , 该 样 例 中 会 展示 所 有 我 们 已 经 讨论 过 的 东西 。 我 们 已 经 编写 了 
一 个 徐 化 但 很 完整 的 分 类 服务 硕 ， 该 服务 天 实现 了 16.4 下 中 介绍 过 的 那个 更 简单 的 部 署 方 荣 。 该 
服务 硕 提 供 一 个 全 功能 负载 均衡 分 类 需 所 需要 的 全 部 基本 功能 ， 也 包括 一 些 管 理 功能 。 

该 例子 中 分 类 客户 端 和 服务 融 端 的 通信 使 用 Apache 的 Thrift ( http://thrift.apache.org ) 来 处 理 。 
Thrift 是 Apache 的 一 个 可 以 以 十 分 简单 的 方式 构建 客户 端 -服务 顺 端 应 用 的 项 目 。 

本 例 当 中 多 个 服务 上 作 及 服务 兹 和 客户 端 之 间 的 协调 工作 使 用 Apache 的 ZooKeeper 
( http://thrift.apache.org ) 来 处 理 。 本 例 中 ，ZooKeeper 持 有 所 有 分 类 服务 名 有 关 装 和 人 哪个 模型 的 指 
令 , 还 保存 了 所 有 服务 带 的 状态 信息 ， 客 户 问 通过 这 些 状态 信息 了 解 哪 台 服务 疾 已 经 结束 、 每 台 
服务 器 上 运行 哪个 模型 。 这 种 服务 器 协调 的 结构 参见 网 16-5。 
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获取 配置 /通告 
寻找 服务 器 \ 


图 16-$ ”ZooKeeper 作 为 分 类 客户 端 和 服务 需 端 的 协调 和 通知 服务 需 


这 种 安排 可 以 使 得 分 类 服务 需 知 道 模型 定义 的 位 置 ， 客 户 端 也 可 以 找到 所 有 的 活动 服务 天 。 

当 某 人 台 服 务 需 局 动 时 ， 它 会 询问 ZooKeeper 来 找到 装 和 人 的 模型 。 装 人 该 模型 后 ， 它 就 会 回 
ZooKeeper 写 人 一 个 文件 来 通告 所 有 机 融 它 可 以 接受 流量 。 每 当 应 该 装 入 哪个 文件 的 指示 文件 改 
变 时 ，ZooKeeper 会 将 该 更 改 通 知 所 有 的 服务 天 。 

当 客 户 端 硕 望 回 服务 天 发 送 一 个 查询 时 ， 它 会 浏览 ZooKeeper 来 找到 当前 正在 提供 服务 的 服 
务 顺 并 从 中 随机 选 出 一 人 台 服 务 顺 。 

用 于 协调 的 ZooKeeper 中 的 多 个 文件 的 结构 如 下 : 


/model-service/ 


model-to-serve 

Current-servers/ 
hostname—-1 
hostname—2 


model-to-serve 文 件 给 出 的 是 被 所 有 服务 需 装 人 用 于 分 类 的 模型 的 URL。 这 些 服 务 需 将 维护 该 
文件 的 一 个 监视 表 从 而 一 有 修改 就 能 得 到 通知 。 当 它们 得 到 修改 通知 时 ， 会 装 人 model-to-serve 
文件 来 获得 新 模型 的 URL 然 后 重新 狐 入 模型 。 服 务 磊 一 装 入 任 一 模型 ， 就 会 在 current-servers 有 目录 
下 建立 一 个 以 服务 天 名 字 命 名 的 临时 文件 。 由 于 该 文件 是 临时 的 , 所 以 如 果 相 应 服务 器 前 尘 或 者 
退出 ,该 文件 就 会 在 数秒 之 内 消失 。 

上 述 模型 服务 需 的 主 类 代码 如 代码 清单 16-4 所 示 。 其 主要 包含 Thrift 服 务 套 层 的 创建 代码 , 但 
是 需要 注意 的 是 ZooKeeper 中 如 何 使 用 一 个 计时 天 来 按 计 划 进 行 周期 检查 。 这 种 做 法 可 能 完全 宛 
余 ， 但 是 这 是 “吊带 检查 式 ”(beltrand-suspender ) 编程 风格 的 一 个 很 好 的 例子 。ZooKeeper 应 该 
会 通知 任意 的 修改 ,但 是 时 常 检查 可 以 确保 不 错过 由 于 编程 错误 导致 的 某 个 故障 。 


代码 清单 16-4 ”分 类 服务 天 的 主 程序 
Public static final String ZK BASE = "/model-service"; 
Public static final String ZK CURRENT SERVERS = 
ZK_BASE + '"/current-servers"; 
public static final String ZK_MODEL = ZK_BASE + "/model-to-serve"; 
private final TServer server; 


Private final Logger log = 
LoggerFactory.getLogger (this.getClass()}): 
private final ZooKeeper zk; 
private final Ops modelHandler:; 
private Timer timer:; 
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private String currentUr}] = null; 

private int version; 

private Watcher modelWatcher = new Watcher() { 9 代码 清单 16-5 中 会 给 出 细节 
司 /月 加 9 一 

} 


Public Server (int Port ) 
throws TTransportException, IOException, 


InterruptedException, KeeperException { 连接 本 地 ZooKeeper 
ZK = new ZooKeeper{"localhost", 2181, null)}); 
modelHandler = new Ops(): 
er = New De) 每 30 秒 钟 重 试 模 建立 分 类 器 
timer.scheduleAtFixedRate{new 了 TimerTaSsKr) 1{ 型 的 装 入 过 程 有 
QOverride 内 部 的 服务 
Public void run() { 
modelWatcher.process (null); 
} 
}, 0, 30000); _ 建立 Thrift 服 务 器 
socket = new TServerSocket {port}).; 


Classifier.Processor processor = new Classifier,.Processor (modelHandler)}).: 
TProtocolFactory Protocol = new TBinaryProtocol.Factory (true, true}); 
Server = new TThreadPoolServer 

new TThreadPoolServer.Args (socket) .processor (processor)); 
log.warn("Starting server on port {}", port); 


Server.servel(): 二 启动 服务 器 
} 
public static void maintString[] args) throws IOException, 
TtransportException, InterruptedException, KeeperException { 


mew Server{(7908):; 


} 
大 部 分 行为 都 在 modelWatcher 对 象 @ 中 。 该 对 象 是 ZooKeeper Watcher 的 一 个 实现 ， 每 当 
model-to-serve 文 件 发 生 修 改 时 就 会 触发 对 该 对 象 的 调用 。 下 面 给 出 的 是 modelWatcher 的 源码 。 


代码 清单 16-5” 装 入 模型 并 设置 模型 状态 的 Watcher 对 象 


private Watcher modelWatcher = new Watcher{(}) { 
QOverride 
Public void process (WatchedEvent watchedEvent} { 
String hostname = null; 
try 《 
hostname = InetAddress.getLocalHost() .getHostName (}.， 


} catch (UnknownHostException ee { 
} 
if {hostname == null) { 
jog.error{'"Must have hostname ... exiting"}); 
System.exit{1}.; 
} 
String url = null; 
ey 9 从 ZooKeeper 中 获得 URL 
Stat stat = new Stat{); 
bytel}i urlAsBytes = zk.getData(ZK MODEL, modeljWatcher, stat}; 
int latestVersion = stat.getVersion!(}.; 
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J Str] ] SBYt x 人 风 ts.UTF 8).; 
UW new ringtiurlAsBytes AISe _8] | 今 查 URL 是 否 修改 
i rl ss Tl | TatestVereion Is Yersiom] 1 


URL modelUr] = new URL {url).; 
log.warn{("Loading model from " + modelUr1l).; 
AbstractVectorClassifier model = ModelSerializer.readBinaryl! 
modelUrl] .copenSstream!{}, 
OnlineLogisticRegression.class),; 


Bry 7 通知 ZooKeeper 模 型 
Zk.create {ZK CURRENT SERVERS + '"/" + hostname, 服务 器 已 经 装 入 


modelUrl.toSstring() .getBytes (Charsets.UTF 8) ， 
ZooDefs.Ids.OPEN ACT UNSAFE, CreateMode,. EPHEMERAL). 
} catch (KeeperException.NodeExistsException e) { 


zk.setDatal(lZKkK CURRENT SERVERS + '"/" + hostname, 
modelUril.toSstring() .getBytes (Charsets.UTF 8), -1); 
} catch (KeeperException e) 


log.error{"Couldn't write server status file"),; 更 新 先前 存在 的 文件 

} 

modelHandler.setModel (model).; 

currentUr] = url]; 

VEersion = JatestVersion: 

log.infol"done loading version " + Version); 
} 
return; 如 果 ZooKeeper 中 没 

} catch (KeeperFException.NoNodeFxception e) { 有 数据 ， 则 抛 出 错误 

log.error{"Could not find model URL in ZK file: " + ZK MODEL, e); 
return,; 


} catch {KeeperException e) { 

log.error{"Faileqd to load model due to ZK exception*, el).; 
} catch {InterruptedException e) { 

log.error{"Operation interrupted should never happen'", e),; 


} catch (IOException e) { 
log.error({"Failed to load model from " + url, e); 


} 


log.warn("Clearing current URL due to error"):; 
CurrentUrl] = null: 
VEersion = -1.， 
} 
1 


上 述 代 人 码 中 不 少 帮 用 于 人 处理 异常 情况 ,但 是 基本 的 框架 很 何 单 。 代 码 中 的 骨干 部 分 在 
ZK . getData@O.、 ZK . create@.、 ZK . setData 和 的 调用 中 四 

上 上 述 代码 运行 如 下 : 它 答 试 从 ZooKeeper 谈 取 模 型 的 URL。 如 果 URL 谈 取 之 后 并 不 存在 当前 
模型 ， 或 者 ZooKeeper 文 件 包 舍 的 URL 版 本 和 当前 模型 不 一 样 ， 那 么 模型 都 会 重新 装 人 并 且 该 服 
务 需 的 状态 文件 会 采用 此 模型 URL 来 更 新 。 更 新 时 ,首先 尝试 创建 状态 文件 ， 如 果 创 建 失 败 则 更 
新 状态 文件 。 

如 果 由 于 模型 文件 丢失 导致 URL 的 原始 读 取 失 败 的 话 , 那么 就 会 记录 下 一 条 消息 然后 发 生 一 
个 相对 正 党 的 返回 过 程 。 其 他 造成 服务 右 当 前 模型 URL 失 效 的 错误 情况 下 , 要 确保 下 一 次 重新 痰 
入 模型 。 
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实际 的 分 类 请 求 处 理由 Thrift 服 务 带 来 完成 。Thrift IDL 中 定义 的 接口 如 下 所 示 : 


namespace Java com.tdunning.chl6é .generated 
Service Classifier 1{ 

list<double> classify({(1: string text) 
lL 


上 述 接口 定义 声明 服务 肯 会 接受 分 类 请 求 。 每 个 请 求 将 会 返回 一 个 得 分 列表 , 每 个 得 分 反映 
的 是 每 个 可 能 目标 变量 值 的 可 能 性 。 
前 面 IDL 定 义 的 接口 的 实现 在 ops 类 中 ， 具 体 代 码 如 下 。 


代码 清单 16-6 分 类 服务 的 实现 


public class Ops implements Classifier.Iface { 
Private static final int FEATURES = 10000; 


private static final FeatureVectorEncoder enc = 
new TextValueEncoder ("text")}).; 
volatile AbstractVectorClassifier model.,; 


public Ops{}) 1{} 


QOverride 
public List<Double> classify!(String text) throws TException f{ 
Vector features = new RandomAccessSparseVector (FEATURES) ; 


enc.addToVvector (text, features). 


中 i 入 VAN 3 
Vector r = IOGel .CTL3SSTLTY (teatures}): -对 文本 分 类 
Lisgst<Double> rx = Ligsts.newArrayList{():; 
for (nt i = 0; i < r.size(},; 1++) ff 


rx.add{(r.get (i}):; 
} 


IEetuUrn IX: 


i 


} 


public void setModel (AbstractVectorClassifier model) { 为 ZooKeeper 监 视 器 
this.model = modqel:; | 提供 钧 子 (hook) 
} 


} 

classify 方 法 使 用 当前 装 和 的 模型 对 特征 向 量 进行 分 类 。 当 Thrift 服 务 需 收 到 一 个 客户 端 请 
求 时 ， 就 会 调用 上 述 方 法 来 将 文本 按照 第 1$ 章 TrainNewsGroups 程 序 的 风格 编码 后 传 给 它 。 然 
后 就 使 用 模型 计算 并 返回 一 个 得 分 回 量 。 

Ops 类 中 也 定义 了 一 个 setModqe1 方 法 咎 ，ZooKeeper 监 视 带 类 可 以 利用 该 方法 在 观察 到 模型 
更 改 时 装 入 新 模型 。 


/ 


16.5.1 运行 分 类 服务 器 


为 观察 上 述 服务 器 的 实际 效果 ， 可 以 使 用 ZooKeeper 的 命令 行 界面 来 触发 其 行为 。 然 而 在 开 
始 之 前 ， 必 须要 有 一 个 可 工作 的 模型 。 代 码 清 单 1$-3 中 的 TrainNewsGroups 就 是 一 个 十 分 便利 
的 获取 上 述 模型 的 程序 ， 因 为 它 每 几 百 个 训练 样本 就 将 一 个 模型 副本 写 人 /tmp 中 。 
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建立 和 运行 TrainNewsGroups 的 过 程 在 源 代码 附 溃 的 README 文 件 中 进行 描述 。 
当 运 行 rrainNewsGroups 程 序 时 ， 输 出 量 十 分 巨大 。 输 出 中 的 一 些 关 键 片段 如 下 所 示 : 


[INFO] [exec:java {execution: default-cli}] 
11314 training files 

0.62 189992.00 ... 7000 -1.017 81.02 none 
0.64 189992.00 ... 8000 -0.898 84.77 none 
0.75 189997.00 ... 10000 -0.948 84.71 none 


同时 ， 可 以 得 到 /tmp 下 保存 的 模型 文件 : 


$s ls -1 /tmp/ 


六 室 一 了 一 一 1] ... 1680247 Nov 21 01:16 news-group-1000.model 
太一 了 一 一 下 下 1680247 Nov 21 01:16 news-group-1200.model 
了 太 = 了 一 一 于 1] ... 1680247 Nov 21 01:16 news-group-1400.model 
了 太一 了 一 一 了 1] ... 1680247 Nov 21 01:16 news-group-l1500.model 
了 节 证 一 了 一 一 了 1] ... 1680247 Nov 21 01:19 news-group.model 


上 述 名 如 news-group-*.model 之 类 的 文件 包含 学 习 每 一 步 中 的 最 佳 模型 。 

一 旦 拥有 一 些 模型 文件 ， 就 可 以 像 第 16 章 源 代码 附 市 的 README 文 件 中 的 说 明 摘 述 的 那样 
启动 ZooKeeper 的 一 个 本 地 副本 。 

ZooKeeper 运 行 后 ， 可 以 局 动 分 类 服务 需 : 


10/11/21 01:36:06 INFO Zookeeper.ClientCnxn: Socket connection established to 
localhost/fe80:0:0:0:0:0:0:1%1:2181, initiating session 


10/11/21 01:36:06 WARN chi6.Server: Starting server on Port 7908 


10/11/21 01:36:07 ERROR ch16.Server: Could not find model] URL in ZK file: / 
model-service/model-to-serve 
10/11/21 01:36:08 WARN chi6.Server: Starting server on port 7908 


过 程 最 好 使 用 与 启动 ZooKeeper 不 一 样 的 男 一 个 窗口 来 完成 ， 这 样 当 日 志 行 出 现时 才能 
tf J 分 离 。 
今 为 止 ， 分 类 服务 需 已 经 运行 ， 但 是 ZooKeeper 中 没有 关于 装 入 并 使 用 哪个 模型 来 对 请 求 
ge 任何 信息 ,为 将 正确 信息 放 入 ZooKeeper, 可 以 使 用 下 面 所 示 的 ZooKeeper 命 令 行 界面 。 
同样 ， 为 分 离 信息 也 最 好 使 用 一 个 新 窗口 。 


$s ~/Apache/zookeeper/bin/zkCli.sh <<EOF 
create /model-service "mn" 


create /model-service/model-to-serve \ 
file://localhost/tmp/news-group-1500.model 

uit 

EVE 


这 些 命令 应 该 会 产生 大 量 输出 ， 最 重要 的 输出 行 可 能 如 下 所 示 : 


k: 1] Created /model-service 
kK: 3] Created /model-service/model-to-serve 


[ 
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在 用 户 与 ZooKeeper 交 互 的 同时 ， 前 面 局 动 的 分 类 服务 冀 每 30 秒 都 检查 一 次 看 看 ZooKeeper 
是 否 正确 建立 。 每 次 检查 时 ， 可 能 都 会 发 出 同样 的 不 能 找到 模型 URL 的 错误 消息 。 但是, 在 最 终 
建立 /model-service/model-to-serve 文 件 后 的 循环 中 ， 可 能 会 产生 一 个 不 同 的 消息 : 

10/11/21 01:45:04 INFO ch16.Server: Loading model from file://localhost/tmp/ 


news-group-1500.model 
10/11/21 01:45:04 INFO ch16.Servetr: model loaded 


这 时 候 ， 分 类 服务 帮 正 常 运行 。 可 以 通过 修改 model-to-serve 文 件 来 看 看 ZooKeeper 配 置 命 令 
的 反应 : 


~/Apache/zookeeper/bin/zkcCli.sh <<EOF 

set /model-service/model-to-serve file://localhost/tmp/xxx.model \ 

quit 

EOF 

几乎 在 刚刚 输入 上 述 命 令 之 时 , 会 发 现 服务 希 输出 不 能 发 现 刚 才 假 造 的 模型 的 警告 。 可 以 利 
用 下 面 的 命令 回 到 正确 状态 : 

~/Apache/zookeeper/bin/zkCli.sh <<EOF 


set /model-service/model-to-serve \ 
file://localhost/tmo/news-groupB-1500.model 


GUI 
EQF 


也 几乎 在 同时 , 分 类 服务 副将 会 确认 已 经 流入 模型 。 如 果 有 10 个 模型 服务 带 运 行 在 不 同 的 机 
人 硕 上 ， 它 们 几乎 部 会 那么 快 就 有 啊 应 。 


16.5.2 访问 分 类 器 服务 


在 客户 端 ， 事 情 甚 至 还 要 简单 。 下 面 的 代码 清单 给 出 了 一 个 客户 疹 如 何 从 ZooKeeper 获 取 活 
动 服务 珊 信 息 然 后 加 其 中 一 个 服务 带 发 送 分 类 请 求 的 过 程 。 


人 = YY YY 站 品 
代码 清单 16-7 ”访问 分 类 服务 需 
public class Client { 
public static void main(String[] args) throws TException, IOException, 


InterruptedException, KeeperException { eo 
获取 活动 服务 器 列表 


2ZOCOKeepPeLr zk = new ZooKeeper("]localhost", 2181, null).: 
List<String> servers = 
zk.getcChildren{(Server.ZK_ CURRENT_SERVERS, false, null); 


If (servers.sizZze() == 0) { 
throw new IllegalSstateException('"No servers to query").， 

| 9 随机 选择 服务 器 
int nn = new Random!{() .nextInt (servers.size()).: 

String hostname = servers.get(n); 

Connection c = new Connection (hostname, 7908).， 

List<Double> resultl1l = c.classifyl('"this is some text to 发 送 请 求 
Glased Ly): 并 打印 结果 
System.out.printf{"%Ss\n", result1)., 

List<Double> result2 = c.classify("'Given that the escrow " + 


"keys are generated 200 at a time on floppies, why\n" + 
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"not keep them there rather than creating one huge" + 
' database that will have to\n" + 
"be guarded better than Fort KNnox.").; 
System.out.printf{"%Ss\n", result2).; 
C.CLosel) ，: 


} 

客户 端 做 的 第 一 件 事 是 联系 ZooKeeper 来 获 的 活动 的 服务 需 列 表 代 并 从 中 随机 选择 一 个 从。 
之 后 ， 它 连接 那个 随机 选中 的 服务 需 并 请 求 其 对 两 段 文本 进行 分 类 四。 

客户 六 程序 的 输出 结果 应 该 看 上 去 如 下 面 所 示 ， 其 中 为 了 清晰 起 见 忽 略 了 某 些 片段 。 


S mvn exec:java -Dexec.mainClass="mia.classifier.chil6é.Client" 


[INFO] Preparing exec:jJava 


10/11/21 20:15:26 INFO zookeeper.ClientCnxn: Opening socket connection to 
server localhost/0:0:0:0:0:0:0:1:2181 


Q.03964640884739735, 0.07565438894170683，, 


[ 

100 
G0.050421016895119145, 0.044210065098318506, 
0.04114422304836256，0.05402402583820334， 第 一 个 请 求 
0 I201606587 6010628 本 we 
下 
0 0958353046587087， 1. 06600300 
0.04373069260414459，0.04580658400349993 ， 
0.04722614673439341, 0.049488286503244314. 
0.04477719025270829] 

[0 0305326000 T4017966 .0.0608006090700611524. 
0 035906 T7049000912087 0 053271019056>9360. 
0002395166467009193, 0.033935126988376176; 
0 (7700652354081463、 0. 04055766767401655. 
人 第 二 个 请 求 
0.07418249664999789，0.06666407060825316， 
se 
0.05212145428368258,，0.030650055681906949007. 
0 N20320701106246365. 0 27609513S S44 
0 102606060001 067769| 

[INEO |] 

[INEO | 

BUILD SUCCESSEUL 


上 述 两 个 请 求 的 输出 结果 为 一 系列 的 数字 列表 ， 其 中 每 个 数字 都 是 某 个 不 同 新 闻 组 的 得 分 。 
由 于 第 二 个 请 求 抽 上 自 真 实 的 新 闻 组 帖子 , 因此 它 更 有 意思 一 些 。 该 请 求 也 在 第 二 个 新 闻 组 那儿 得 
到 一 个 显著 的 高 分 值 ， 如 你 所 想 的 那样 ， 当 给 定 分 类 需 数 据 进 行 分 类 时 就 会 得 到 一 个 结果 。 

上 述 例子 中 编写 的 客户 端 内 在 地 就 在 多 个 服务 需 之 间 进 行 了 负载 均衡 处 理 。 此 外 , 一 个 稍微 
先进 一 点 的 顺序 执行 多 个 查询 的 客户 端 可 能 会 在 ZooKeeper 的 current-servers 目 录 下 维持 一 张 监视 
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表 。 一旦 该 监视 表 被 触发 ， 客 户 痪 可 以 选择 必 一 个 服务 货 。 只 要 任 一 新 服务 前 上 线 ， 或 者 某 个 活 
动 服务 希 退 出 或 朋 溃 不 入， 上 述 做 法 就 能 保持 立刻 的 负载 均衡 。 

上 述 基 于 Apache Thrift 的 服务 硕 案 例 还 不 足以 正式 使 用 ， 但 是 可 以 看 成 很 多 类 实际 产品 级 部 
暂 的 一 个 基本 骨架 。 上 述 系统 设计 中 的 一 个 关键 环 方 是 在 多 服务 带 环 境 下 使 用 ZooKeeper 在 分 类 
客户 问 和 服务 带 问 之 间 进 行 协调 和 通知 。 这 种 做 法 能 够 使 得 分 类 服务 帮 快 速 透明 扩展 , 并 且 能 在 
任意 时 刻 更 改 活动 模型 。 


16.6 小结 


到 这 里 要 对 读者 表示 祝 痪 ! 因为 您 已 经 成 功 操作 了 Mahout 分 类 中 的 第 三 步 也 是 最 后 一 步 , 即 
部 署 一 个 大 规模 的 分 类 带 。 迄 今 为 止 ,读者 知道 了 如 何 为 分 类 系统 构建 和 训练 模型 、 如 何 评估 和 
对 模型 进行 微调 来 提高 性 能 、 如 何在 巨型 系统 中 部 闭 训 练 好 的 模型 等 。 从 本 章 学 习 到 的 有 天 部 区 
的 关键 性 结论 包括 完整 理解 整个 项 目 、 设 计时 对 系统 中 任意 可 能 超出 Mahout 和 容易 做 到 的 部 分 要 特 
别 注 章 。 提 前 发 现 这 些 潜在 的 困难 可 以 有 机 会 修改 设计 来 避免 问题 的 出 现 或 者 安排 时 间 来 拓展 
边 寞 。 

通 当 情况 下 , 部 敬一 个 大 型 系统 的 最 紧要 的 部 分 是 建立 训练 流水 线 。 在 需要 Mahout 处 理 的 规 
模 的 系统 中 ， 上 述 流 水 线 可 能 会 种 来 一 些 实质 性 的 工程 挑战 问题 。 成 功 处 理 的 一 个 关键 是 , 在 进 
行 极 大 规模 联结 操作 时 采用 并 行 方式 实现 流水 线 ， 关 于 这 一 点 前 面 已 经 学 过 。 

本 莉 也 给 出 了 一 些 需 要 避免 的 陷阱 ， 如 避免 生 成 日 标 泄漏 或 造成 语义 失 配 。 我 们 给 出 了 这 些 
漏洞 可 能 出 现 的 多 种 隐蔽 方式 并 给 出 了 避免 办 法 。 

最 后 一 个 学 到 的 经 验 涉 及 服务 的 设计 。 本 章 给 出 了 一 个 基于 标准 扩 术 ( 如 ZooKeeper 和 Thrift ) 
的 健壮 的 分 类 服务 的 核心 设计 案例 。 如果 理解 了 该 服务 设计 的 精神 , 那么 就 可 以 可 徘 地 反复 部 署 
局 性 能 的 分 类 服务 。 但 是 和 干 万 不 要 被 本 革 设 计 的 简洁 性 所 欺骗 。 系 统 的 大 部 分 倍 洁 性 、 健 壮 性 和 
可 徘 性 都 建 立 在 ZooKeeper 坚 实 的 基础 上 。 如 果 和 远离 这 里 的 基本 设计 思路 的 话 则 要 三 思 而 后 行 。 

正如 读者 看 到 的 那样 ， 当 集成 到 大 型 系统 中 ,即使 部 署 一 个 设计 良好 的 分 类 右 痢 是 一 件 复 困 
的 事情 。 下 一 章 我 们 要 结束 对 分 类 的 探讨 , 其 中 将 会 给 出 将 上 面 所 讲 的 东西 部 集中 在 一 起 的 真实 
世界 的 一 个 大 规模 分 类 融 系 统 案例 ， 该 系统 为 一 个 在 线 贸易 公司 Shop It To Me 所 使 用 。 
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本 章 内 容 

口 分 类 系统 速度 和 扩展 性 方面 所 考虑 的 问题 
口 构建 训练 流水 线 的 过 程 

口 极 高 存 叶 率 下 的 分 类 需 重 构 过 程 


迄今 为 止 ， 前 面 几 章 内 容 已 经 给 出 了 有 关 分 类 的 一 个 总 体 介绍 ， 除 此 之 外 , 还 包括 设计 和 训 
练 Mahout 分 类 带 的 详细 解释 、 对 训练 模型 进行 评 佑 以 将 性 能 调整 到 想 要 的 水 平 以 及 将 分 类 需 部 署 
到 大 型 系统 等 内 容 。 本 昔 将 通过 一 个 实际 案例 将 上 述 所 有 主题 付 诸 实 践 , 该 案例 来 日 一 个 真实 的 
在 线 贸易 公司 Shop It To Me (http://www.shopittome.com )， 该 公司 选择 Mahout 作 为 其 分 类 方法 。 
我 们 将 会 看 到 该 公司 的 一 个 小 的 工程 团队 在 建立 和 部 署 高 性 能 Mahout 分 类 需 时 遇 到 的 问题 和 解 
决 的 办 法 。 

第 16 章 主要 关注 超大 系统 的 规模 需求 ,该 需求 最 好 通过 Mahout 分 类 来 完成 。 类 似 地 , 本 章 案 
例 也 处 理 大 规模 数据 集 ， 但 同时 它 也 提供 了 一 个 即使 对 Mahout 系 统 来 说 速度 需求 都 很 极端 的 例 
子 。 出 于 扩展 性 特别 是 速度 上 的 要 求 ， 开 发 团队 所 涉及 的 解决 方案 中 需要 大 幅度 的 实质 性 创新 。 
总 的 来 说 ， 本 曹 介 绍 的 系统 将 会 展示 Mahout 分 类 需 比 初 看 起 来 更 强大 的 一 面 。 

在 介绍 Shop It To Me 系统 之 后 ,会 考察 其 外 发 邮件 系统 的 工作 过 程 并 介绍 该 系统 产生 的 数据 。 
该 案例 分 类 需 的 目标 会 随 肴 模型 训练 的 每 一 步 来 介绍 。 然 后 考察 Shop It To Me 团队 是 如 何 使 得 训 
练 和 模型 计算 的 过 程 足够 快 来 满足 业务 需求 的 。 

最 后 ， 我 们 总 结 本 案例 中 学 到 的 经 验 以 便 能 够 将 学 到 的 知识 用 到 目 己 的 项 目 中 去 。 


17.1 Shop lt To Me 选择 Mahout 的 原因 


Shop It To Me 这 个 案例 会 揭示 为 什么 Mahout 对 于 某 些 规模 和 速度 的 问题 是 十 分 理想 的 选择 
方案 ， 而 这 些 问题 的 其 他 方案 却 不 能 很 好 解决 。 但 是 为 了 证 谱 者 深刻 理解 该 腔 例 中 面 对 的 挑战 ， 
了 解 一 下 公司 的 青 景 信息 十 分 有 益 。 接 下 来 ， 我 们 看 看 Shop It To Me 公司 是 干什么 的 、 他 们 需要 
分 类 系统 干什么 以 及 为 什么 选择 Mahout 来 构建 该 系统 。 
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17.1.1 Shop lt To Me 公司 简介 


Shop It To Me 是 一 个 免费 的 在 线 个 人 购物 服务 ， 它 通过 邮件 ( SaleMail ) 通知 为 顾客 提供 
感 兴趣 的 销售 商品 。 公 司 的 使 命 是 及 时 在 顾客 和 满足 顾客 偏好 的 销售 商品 之 间 建 立 联系 。 由 于 
用 户 交 易 往往 与 临时 打折 的 商品 有 关 ， 因 此 及 时 性 特别 重要 。 如 果 需 点 击 的 商品 链接 没有 及 时 
传送 给 顾客 , 该 商品 将 会 在 购买 之 前 消失 。 简 而 言 之 , 公司 的 使 命 就 是 展示 顾客 想 要 看 的 商品 。 

Shop It To Me 与 几 百 个 零售 商 之 间 有 合作 关系 ， 因 此 公司 能 够 知道 商品 上 市 销售 的 时 间 。 运 
今 为 止 ，Shop It To Me 有 超过 300 万 的 顾客 ， 为 构建 发 送 给 顾客 的 邮件 〈 即 SaleMail )， 公 司 每 个 
月 会 给 出 超过 20 亿 的 商品 推荐 信息 。 


17.1.2 ”Shop lt To Me 需要 分 类 系统 的 原因 


读者 可 能 会 有 疑问 ， 上 述 商 业 使 命 本 质 上 基于 推荐 形式 ， 即 预测 特定 顾客 喜欢 哪些 商品 ， 这 
种 需求 为 什么 需要 分 类 呢 ? 这 里 选择 分 类 的 原因 在 于 在 Shop It To Me 这 种 情况 下 常规 的 推荐 方法 
不 太 理 想 。 在 商品 被 很 多 用 户 看 过 之 后 推荐 系统 会 表现 很 好 。 经 典 的 例子 包括 电影 和 音乐 的 推荐 。 
通过 对 某 些 相同 商品 的 交互 相似 度 可 以 找到 用 户 之 间 的 关联 ,这 种 相似 度 可 以 预测 用 户 的 其 他 偏 
好 。 了 最 重要 的 一 点 是 ， 推 存 系统 中 被 推荐 的 商品 第 二 天 仍然 存在 。 

但 是 ，Shop It To Me 推荐 给 顾客 的 商品 并 不 存在 这 种 持久 性 。 不 伪 张 地 说 ， 最 畅销 商品 即使 
今天 可 能 还 在 但 是 明天 可 能 瓯 断 货 。 商品 的 这 种 短暂 性 本 质 意味 看 推荐 系统 必须 要 考虑 训练 数据 
中 商品 的 特性 ， 比 如 品牌 、 价 格 、 颜 色 等 ， 这 些 信 息 在 后 来 的 商品 中 也 会 存在 。 为 实现 这 一 点 需 
要 另 一 种 方法 ， 即 作为 一 个 类 推荐 系统 的 一 部 分 ， 利 用 分 类 来 进行 预测 。 在 Shop ItTo Me， 可 用 
的 数据 包括 用 户 的 个 人 历史 以 及 要 推荐 商品 的 特性 信息 。 这些 信息 构成 了 所 有 的 预测 变量 。 这 里 
也 有 一 个 很 好 的 目标 变量 ， 即 用 户 是 否 会 点 击 某 件 商品 。 

为 了 提高 这 些 推荐 的 作用 ，Shop It To Me 构建 了 一 个 先进 的 分 类 系统 提供 来 帮助 精确 预测 哪 
些 商 品 会 吸引 特定 的 用 户 。 当 为 某 个 特定 用 户 构建 一 封 SaleMail 时 ， 该 分 类 系统 会 计算 已 训练 分 
类 模型 的 信 来 预测 对 于 数 十 万 可 能 的 商品 中 的 每 一 个 用 户 是 否 会 点 击 。 通 过 按照 预测 的 用 户 偶 好 
概率 对 商品 排序 ，Shop It To Me 可 以 构造 特定 兴趣 的 SailMail 发 给 用 户 。 


17.1.3 ”对 Mahout 向 外 扩展 


构建 上 述 系统 会 面 对 一 些 特殊 的 挑战 。 不仅 要 面 对 儿 十 亿 的 训练 样本 规模 ,还 要 达到 惊人 的 
分 类 速度 。 粗 略 计算 一 下 ,， 数 百 万 用 户 需要 对 几 十 万 商品 进行 模型 评 佑 ,也 就 是 说 有 几 千 亿 的 模 
型 评 佑 。 为 满足 邮件 构建 和 传输 流水 线 的 约束 条 件 ， 上 述 分 类 过 程 必须 要 在 几 小 时 内 完成 。 也 就 
是 说 ， 必 须要 在 每 秒 内 完成 数 千 万 次 分 类 ， 这 个 数字 按照 我 们 老家 的 说 法 叫 “alof 。” 

为 在 合理 的 计算 构架 下 满足 上 述 苛 刻 的 要 求 ，Shop It To Me 已 经 不 得 不 做 了 一 些 非常 有 趣 的 
工程 工作 。 多 个 系统 用 于 产后 原型 分 类 着 ， 包 括 R〈http:Wwww.r-project.org/ ) 和 Vowpal Wabbit 


@) 第 一 作者 Sean Owen 来 自 英 国 伦敦 。 一 一 译 者 注 
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( https://github.com/JohnLangford/vowpal wabbit/wiki )， 后 者 是 雅虎 资助 的 一 个 开源 SGD 分 类 郑 。 
利用 R 工 具 对 训练 大 数据 量 进 行 简 单 处 理 并 同 Shop It To Me 已 有 的 Ruby/JRuby 架 构 进 行 恨 好 集成 
被 证 明 是 十 分 困难 的 。 而 Vowpal Wabbit 能 够 处 理 训练 数据 的 规模 ,但 是 将 Vowpal Wabbit 很 好 集 
成 到 已 有 染 构 也 十 分 困难 。 

为 一 方面 ，Mahout 可 以 处 理 训练 规模 并 且 可 以 和 已 有 架构 很 好 地 集成 。 在 Shop It To Me 系统 
中 ， Mahout 提 供 了 关键 的 部 分 ， 这 些 部 分 将 在 本 章 当 中 详细 介绍 。Mahout 不 一 定 是 任 一 项 目的 
优先 选择 ， 但 是 它 却 被 证 明 是 面 对 Shop It To Me 中 工程 挑战 的 最 佳 选择 。 


注意 Shop ItTo Me 系统 设计 、 关 键 变量 提取 及 模型 性 能 的 一 些 细 节 属于 公司 机 窗 ， 这 里 予以 省 


系统 的 整个 框架 在 这 里 只 是 泛泛 地 描述， 并 不 包含 Shop It To Me 系统 各 方面 的 精确 细 市 。 
但 是 ， 为 理解 扩展 问题 及 其 解决 方案 给 出 了 足够 的 细节 。 这 些 问题 随 着 邮件 系统 本 吴 的 结构 而 
es 


在 Ruby 中 使 用 Mahout 

Shop It To Me 是 一 个 基于 Ruby 的 商店 ， 但 是 它 选择 了 基于 Java 的 Mahout 来 作为 建 模 的 
平台 。 这 看 上 去 有 点 自 相 矛盾 ， 但 是 正如 Shop It To Me 的 工程 师 确定 的 那样 ，Java 非常 容 匈 
集成 到 一 个 基于 Ruby 的 Web 服务 和 进程 中 去 。 其 中 一 个 主要 原因 在 于 JRuby 允许 从 Ruby 代 
码 中 调用 Java， 这 种 调用 几乎 是 透明 的 ， 而 且 和 标准 Ruby 相 比 性 能 并 没有 显著 降低 。 这 使 得 
可 以 使 用 标准 的 Ruby 风格 和 工程 实践 方法 来 构建 分 类 服务 。 

另 一 方面 ，Shop ItTo Me 的 模型 训练 使 用 Cascading 集成 到 Rake 定义 的 Ruby 工作 流 中 实 
现 。 而 通过 某 种 领域 专用 语言 (DSL ) 撰写 Cascading 工作 流 在 系统 中 隐藏 了 Cascading 的 Java 
本 质 。 

尽管 扩展 或 维护 现 有 系统 仍然 需要 重要 的 Java 专业 知识 ，Mahout 和 JRuby 之 间 的 大 部 分 
集成 并 不 需要 丰富 的 Java 知识 ， 而 只 需要 标准 的 Ruby 方法 和 工具 就 可 以 完成 。 


17.2 ”邮件 交易 系统 的 一 般 结 构 


Shop It To Me 的 整体 数据 流 大 致 如 图 17-1 中 的 路 径 所 示 。 该 图 给 出 了 如 何 利 用 注册 信息 来 填 
充 用 户 表 格 和 品牌 偏好 表格 ,该 图 也 展示 了 如 何 使 用 利用 专门 的 数据 导入 冀 从 零售 伙伴 中 发 现 销 
售 了 商品。 系统 的 核心 部 件 是 SaleMail 构 建 入 ， 它 会 访问 包含 当前 销售 商品 、 用 户 及 其 兴趣 信息 的 
表格 。 包含 一 个 点 击 预测 模型 在 内 的 模型 用 于 选择 在 发 给 每 个 用 户 的 邮件 中 选择 哪 件 商品 。 每 封 
邮件 中 包含 的 商品 记录 在 一 个 商品 出 现 表 中 。 
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网 站 注册 


自 


Bt 


Shop It To Me 邮件 销售 系统 的 总 体 数据 流 图 。 虚 线 给 出 的 是 用 户 通过 点 击 邮 
件 中 的 商品 而 提供 反馈 的 过 程 

如 图 17-1 所 示 的 那样 , 用 户 及 出 售 的 商品 构成 了 邮件 生成 器 使 用 的 点 击 模型 所 需 的 预测 变量 
数据 。 当 用 户 点 击 其 收 到 邮件 中 的 商品 时 ， 会 导致 网 页 的 访问 ， 这 些 访问 会 被 日 志文 件 所 记录 。 
然后 ， 这 些 记录 到 的 点 击 信 息 会 放 到 训练 数据 中 用 于 下 一 轮 的 建 模 ， 这 样 点 击 模 型 就 可 以 更 新 。 
这 些 数 据 集 中 的 一 部 分 被 存在 关系 数据 库 中 ， 比 如 用 户 表 , 但 是 其 他 一 些 数 据 集 ， 比 如 出 现 表 可 
以 存在 大 规模 日 志文 件 集合 或 进行 隐 式 存储 ， 一 旦 需要 就 必须 重 构 。 

Shop It To Me 系统 产生 的 一 封 邮件 示意 图 如 图 17-2 所 示 。 我 们 会 看 到 邮件 的 上 部 提供 了 多 种 
腕 表 以 供 选 择 ， 邮 件 的 下 部 还 给 出 了 更 多 的 商品 。 


图 17-1 


Today's Shop lt To Me Sale Alert me= |* 
salemail@shopittome.com to me 8:24 AM (12 hours ago) Keply 


一 ev hh Te Me 


Seop NTo Me 


Hello Ted Nere are Yi 


You're only 10 friends away from a free gift card! Invite more! 


Your matches from nordstrom.com Remove Retaller 


s of $200 or more! Di heckout. Excludes Coach 


re! Discount spplied at c¢ 
A 二 


Free Shipping on all order 


和 从: 


图 17-2 ”从 Shop It To Me 发 送 的 推荐 邮件 中 截取 的 一 段 内 容 
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图 17-1 工 作 流 中 用 到 的 数据 库存 放 了 整个 系统 的 状态 信息 ,包括 可 购 天 的 商品 、 已 经 发 送 的 
邮件 以 及 用 户 表 示 出 的 偏好 等 信息 。 图 17-3 给 出 了 Shop It To Me 系统 中 用 到 的 表 结 构 的 一 个 人 简化 
版 本 ， 这 些 表 结构 用 于 记录 构建 点 击 模型 所 需 的 用 户 、 商 品 以 及 它们 之 间 的 交互 行为 信息 。 


id 
vendorld 
brandId 


description 


id 
timestamp 
iteml 


interests 


图 17-3 ”支持 Shop It To Me 数据 流 的 数据 库 表 的 简化 UML 视 图 。 每 件 销售 商品 包含 一 
个 唯一 的 供应 商 和 品牌 , 但 是 可 以 出 现 多 次 。 同样 ， 用户 可 能 表现 出 对 多 个 品 
牌 的 兴趣 ， 但 是 会 浏览 很 多 商品 。 每 次 出 现 可 能 导致 至 少 一 次 点 击 行为 


在 图 17-3 中 ，User 和 SaleIltem 表 的 非 规 范 化 视 岁 会 导出 为 Apache Hadoop 文 件 用 于 构建 训练 数 
据 。 由 于 规模 原因 ，Appearance 表 并 不 是 真正 的 数据 库 表 。 实 际 上 它 保 存在 传统 文件 中 ,文件 中 
包含 发 送 的 邮件 记录 。Appearance 表 和 Click 表 都 会 导出 到 Hadoop 来 联结 。 需 要 注意 的 是 ,如 何以 
高 度 规范 化 的 格式 来 保存 这 些 表 ， 这 对 于 处 理事 务 和 文 持 Web 访 问 来 说 相当 重要 ， 但 是 这 种 规范 
化 在 训练 时 必须 要 去 挥 。 

迄今 为 止 ， 我 们 已 经 了 解 了 Shop It To Me 邮件 系统 的 框架 以 及 销售 过 程 的 组 织 方 式 。 想 象 一 
下 如 何 设计 分 类 系统 。 不 管 要 建立 何 种 分 类 融 ，Shop It To Me 第 一 步 要 做 的 事情 是 训练 模型 。 


17.3 ”训练 模型 


训练 一 个 模型 首先 需要 一 些 初 步 规划 。 必须 要 考虑 如 何 提出 问题 来 满足 目标 的 需要 并 确定 系 
统 输 出 中 的 目标 变量 。 必 须要 考察 可 用 的 历史 数据 ， 以 了 解 哪些 特征 可 以 用 作 变 量 , 确定 其 中 的 
哪些 特征 可 以 作为 最 有 效 的 预测 变量 。 对 于 Mahout 分 类 器 来 说 , 要 审视 所 做 项 目的 关键 点 特别 重 
要 , 这样 才 能 以 最 住 方式 确定 如 何在 速度 和 规模 需求 之 间 寻 求 平衡 , 我 们 在 前 面 草 节 中 已 经 讨论 
jl 

本 节 将 介绍 Shop It To Me 如 何 完 成 上 述 步骤 。 


17.3.1 定义 分 类 项 目的 目标 
Shop It To Me 的 工程 师 们 很 像 我 们 在 前 面 音节 提 到 的 那样 解决 他 们 的 问题 。 其 分 类 项 目的 目 
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标 是 , 基于 商品 的 出 现 信息 和 用 户 的 点 击 历史 构成 的 训练 数据 来 预测 用 户 是 否 会 点 击 该 商品 。 所 
击 预 测 是 目标 ， 而 用 户 和 商品 的 特性 是 预测 变量 。 然 而 ， 要 达到 可 用 状态 ，Shop It To Me 效 据 需 
要 大 量 的 预 处 理工 作 。 

训练 数据 的 建立 流程 如 图 17-4 所 示 。 该 图 给 出 了 用 户 数据 的 预 处 理 及 其 与 商品 数据 的 联结 过 
程 ， 它 们 一 起 构成 了 模型 训练 所 要 的 数据 。 


图 17-4 ”模型 训练 数据 建立 中 的 数据 流 图 。 点 击 和 出 现 信息 以 并 行 的 方式 联结 并 进行 
选择 性 下 采样 处 理 。 然 后 所 有 的 数据 联结 在 一 起 产生 训练 数据 

Shop It To Me 系统 中 拥有 的 一 个 最 丰富 的 信息 是 品牌 偏好 数据 库 。 当 用 户 注 册 到 Shop It To 
Me 系统 时 ， 会 回答 系统 有 关 品 牌 偏好 的 问题 。 他 们 的 回答 存储 在 品牌 偏好 数据 库 中 ， 这 是 一 个 
非常 优质 的 关于 用 户 偶 好 的 信息 源 。 不 人 的 是 ， 该 数据 的 格式 并 不 能 直接 为 分 类 所 用 。 

为 解决 上 述 问题 , 首先 使 用 SVD 分 解 来 对 数据 进行 约 简 然 后 采用 k-means 聚 类 算法 进行 聚 类 。 
SVD 分 解 是 一 种 稼 和 党 用 于 对 观察 数据 降 维 的 数学 技术 。 上 述 处 理 之 后 , 表现 出 相似 品牌 偏好 的 用 
户 会 被 分 到 同一 个 篮 中 。 品 牌 偏好 簇 的 ID 以 某 种 十 分 适合 于 建 模 的 格式 表示 了 原始 品牌 信息 。 

在 全 部 计算 当中 , Appearances 表 是 最 大 的 一 张 表 , 最 终 训 练 数据 当中 的 每 条 记录 都 可 以 回溯 
到 该 表 中 的 唯一 一 行 。 此 外 , 根据 商品 的 出 现 是 否 导 致 一 次 点 击 对 Appearances 表 按照 不 同 采样 率 
进行 了 下 采样 。 未 点 击 的 出 现 信 息 基 本 上 都 会 进行 下 采样 ,但 是 点 击 的 信息 不 参与 下 采样 。 为 使 
下 游 的 联结 操作 处 理 更 少 的 数据 因而 更 加 高 效 ， 上 点击 和 出 现 信 息 的 联结 操作 在 一 个 完整 的 reduce 
联结 中 完成 ， 并 且 在 与 用 户 和 商品 元 数据 联结 之 前 在 Reducer 中 进行 下 采样 处 理 。 

然后 ,点击 及 出 现 数据 和 用 户 元 数据 及 商品 元 数据 进行 联结 操作 , 其 中 用 户 元 数据 包括 性 别 、 
年 龄 、 大 体 的 地 理 位 置 及 品牌 偏好 和 族 等 , 而 商品 元 数据 包括 商品 编号、 颜色 、 尺 寸 和 描述 信息 等 。 
这 里 的 联结 操作 将 利用 一 个 Map 并 的 联结 来 完成 , 这 是 因为 用 户 和 商品 元 数据 表 只 包含 儿 百 万 记 
录 ， 放 到 内 存 相对 容易 。 
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上 述 联结 也 可 以 通 入 一 个 Reduce 闪 的 联络 运算 并 集成 到 点 击 和 出 现 信 息 的 联结 步骤 中 完成 。 
通过 党 试 更 多 实验 ， 有 可 能 提高 上 述 实现 方法 的 性 能 。 


17.3.2 ”按时 间 划 分 


不 断 积累 的 训练 数据 按 天 来 划分 , 这 样 可 以 训练 数据 量 的 选择 及 更 具 灵 活性 , 更 重要 的 一 点 
是 , 这 样 可 以 允许 测试 数据 与 训练 数据 分 离 且 时 间 更 新 。 由 于 上 述 做 法 考虑 了 诸如 商品 库存 变化 
等 实际 效果 ， 因 此 它 对 性 能 的 评估 更 加 实际 。 当 旧 的 训练 数据 过 时 不 再 为 模型 所 用 时 ， 上述 按 天 
来 划分 数据 的 做 法 也 会 带 来 好 处 。 

按时 间 划 分 的 做 法 也 能 允许 以 增 量 式 的 方法 来 构建 训练 数据 ， 比 如 一 次 一 天 。 这 也 意味 着 构 
建 长 期 训练 集 的 巨大 开销 可 以 分 担 到 一 段 很 长 时 间 ， 这 样 就 不 会 耽误 每 天 的 构建 过 程 。 

17.3.3 ”避免 目标 泄漏 

在 分 类 部 分 , 我 们 至 始 至 终 都 强调 对 特征 提取 进行 精心 规划 以 避免 目标 泄漏 的 重要 性 。 为 避 
免 目标 泄漏 问题 ，Shop It To Me 的 工程 师 们 使 用 了 一 个 基于 时 间 的 多 层 数 据 隔离 方案 。 对 品牌 偏 
好 信息 的 SVD 分 解 及 k-means 聚 类 基于 早期 的 数据 来 进行 ， 在 模型 建立 时 上 述 处 理 后 保存 的 结 
相对 稳定 。 最 后 的 簇 模型 应 用 到 后 期 数据 来 产生 实际 的 训练 数据 。 此 外 ,更 近 的 数据 放 在 训练 算 
法 之 外 来 评估 训练 模型 的 精度 。 


17.3.4 ”调整 学 习 算 法 


Mahout 学 习 算 法 的 默认 行为 可 能 并 不 能 完全 满足 Shop It To Me 公司 的 需要 ， 这 一 部 分 是 由 于 
这 里 的 分 类 需 以 推荐 程序 的 方式 来 使 用 , 男 一 部 分 是 因为 模型 很 难 训练 。 上 面 的 这 些 困 难 使 得 公 
司 的 工程 师 们 对 默认 的 Mahout Logistic 回 归 算 法 在 多 方面 进行 了 扩展 。 

1. 基于 每 个 用 户 的 AUC 进 行 优 化 

AdaptiveLogisticRegression 学 习 算 法 使 用 AUC 作 为 默认 的 指标 图 来 为 二 值 模型 调整 
超 参 数 。 在 Shop It To Me 分 类 系统 中 ，AUC 是 一 个 度量 哪 对 用 户 - 阐 品 可 能 会 导致 点 击 的 精度 指 
标 。 不 对 的 是 , 在 点 击 模型 中 的 一 个 最 强 信 号 涉及 将 用 户 分 为 点 击 和 不 点 击 两 种 。 由 于 邮件 营销 
系统 的 基本 问题 是 对 每 个 用 户 将 商品 排序 , 预测 谁 会 点 击 并 不 是 兴趣 所 在 , 最 重要 的 是 让 商品 展 
示 给 用 户 之 后 预测 用 户 会 点 击 其 中 哪些 商品 。 为 帮助 学 习 算 法 找到 解决 正确 问题 的 模型 ,需要 一 
个 不 同 于 一 般 的 指标 图 。 

在 Mahout 中 ， 有 两 个 类 可 以 用 于 计算 不 同形 式 的 AUC 。 标 准 全 局 AUC 可 以 通过 
GlobalonlineaAuc 来 计算 ， 而 基于 组 内 排序 的 AUC 则 使 用 GroupedqonlineAuc 来 计算 。 
AdaptiveLogisticRegression 学 习 算 法 允许 实现 别 的 AUC 和 提供 成 组 准则 。 对 用 户 分 组 或 者 
对 用 户 聚 类 可 以 使 得 模型 有 别 于 简单 选择 点 击 用 户 的 模型 ， 从 而 达到 良好 的 推荐 效果 。 

2. 将 排序 和 评分 混合 学 习 

到 讨 是 直接 学 习 出 概率 还 是 学 习 出 序 是 当前 的 一 个 主要 人 研究 领域 这 些 方法 初 看 上 去 彼此 等 
价 ， 但 是 多 位 学 者 指出 在 实际 情况 下 它们 之 间 存 在 不 同 。 一 个 最 近 的 进展 参见 谷歌 研究 人 员 D. 
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Sculley 的 论文 “Combined Regression and Ranking”。"Shop It To Me 工程 师 通 过 对 Mahout 代 码 包 装 

实现 了 这 个 技术 , 其 中 维护 了 训练 样本 的 短暂 历史 数据 , 通过 当前 训练 样本 或 当前 样本 和 先前 样 

本 的 差异 梯度 来 更 新 模型 。Mahout 的 MixedGradient 类 中 有 大 量 未 经 测试 的 上 述 技术 的 实现 。 
该 技术 对 于 Shop It To Me 来 说 十 分 有 效 , 但 是 要 确定 它 破 正 正确 的 频繁 程度 害 要 更 多 的 经 验 。 


17.3.5 ”特征 同 量 编码 


图 17-5 给 出 了 一 个 理想 训练 集中 的 一 条 记录 ， 该 训练 集 可 能 用 于 构建 点 击 模型 。 在 点 击 模型 
中 ， 正 如 该 记录 一 个 更 实际 的 版 本 一 样 ， 感 兴趣 的 有 三 种 类 型 的 字段 : 

口 用 户 特有 的 字段 ; 

口 商品 特有 的 字段 ; 

口 用 户 - 商 品 的 交互 字段 。 


地 


目标 变 
年 龄 组 性 别 品牌 偏好 簇 ,销售 商 ”品牌 商品 描述 品牌 偏好 入 x 性别 * 品 牌 。 点 击 


来 自用 户 来 自 商 品 来 自用 户 及 商品 
图 17-5 一 个 简化 的 邮件 销售 系统 点 击 模型 中 可 能 用 到 的 训练 记录 字段 。 整 条 记录 包 
含 用 户 特 有 、 商 品 特有 和 用 户 - 商 品 的 交互 变量 。 这 种 类 型 的 实际 模型 会 比 上 
述 概念 样 例 中 的 字段 多 很 多 


用 户 特 有 字段 包括 年 龄 组 、 性 别 、 品 牌 俩 好 簇 等 变量 的 什 ， 而 商品 特有 字段 则 包括 销售 商 、 
品牌 和 商品 描述 等 变量 的 值 。 最 有 用 的 是 用 户 -商品 交互 变量 ， 这 些 交 互 变 量 使 得 模型 不 止 是 记 
录 哪 个 或 哪 类 商品 最 流行 这 样 的 信息 。 

与 前 面 的 特征 编码 例子 相 比 ,这 里 比较 有 趣 的 是 交互 变量 ,其 涉及 用 户 的 品牌 偏好 禾 编 号 ( 图 
中 的 cluster )、 性 别 和 商品 品牌 这 些 信 息 。 

为 使 用 推荐 SGD 算 法 采用 的 特征 散 列 模式 来 对 交互 变量 进行 编码 ， 编 码 中 需要 选择 的 回 量 位 
置 要 与 交互 变量 各 构成 特征 的 位 置 相 独立 。 例 如 ， 图 17-6 给 出 了 我 们 想 要 的 处 理 方式 。 假 设 我 们 
手 里 有 一 个 大 小 为 100 的 稀 蕊 回 量 ， 通 过 散 列 特征 编码 后 特征 “gender=female” 可 能 被 分 配 到 位 置 
8 和 21。 类 似 地 ,”item=dress” 可 能 分 配 到 向 量 的 77 和 87 位 置 上 。 交 互 特征 “female x dress” 必 须 
要 分 配 到 与 上 述 四 个 位 置 尽 可 能 统计 独立 的 位 置 上 去 ,但 是 同时 该 值 仍 然 基 于 上 述 原始 值 来 确定 。 

Shop It To Me 工程 师 们 完成 上 述 位 置 统 计 独 立 性 的 一 种 做 法 是 使 用 随机 的 种 子 来 组 合 每 两 个 
位 置 。 上 例 当 中 通过 随机 数 和 后 成 融 产 生 的 种 子 为 22 和 92。 为 得 到 交互 特征 的 第 ; 企 位 置 ， 使 用 下 
式 进 行 计算 : 


(DD. Sculley ，“ Combined Regression and Ranking ”， 参 见 http:/www.eecs.tufts.edu/~dsculley/papers/combined- 
rankingand-regression.pdf， 另 见 视频 演讲 : http://videolectures.net/kdd2010_sculley_crr/。 
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hash[i] = seed[0] * x[i] + seed[1] * y[1i] 
其 中 x 和 y 分 别 包 含 “woman” 和 “dress” 的 特征 位 置 。 
在 问 量 中 的 位 置 


8 21 37 $3 77 87 
"female" "female" x "dress" "dress" 
图 17-6 ”交互 特征 需要 散 列 到 与 其 组 成 特征 位 置 不 同 的 位 置 


上 述 做 法 与 布 隆 过 滤 带 中 使 用 的 双 散 列 密切 相关 ,并且 已 有 工作 表明 这 种 做 法 能 够 为 组 合 特 
征 提供 相当 好 的 独立 的 位 置 结果 。 代码 清单 17-1 给 出 了 上 述 思 路 下 的 一 个 交互 特征 编码 从 的 具体 
实现 。 


代码 清单 17-1 交互 特征 编码 带 的 一 个 实现 代码 示例 
public class CategorylInteractionemncoder { By -mo 编码 器 对 成 员 


Private int1l] seeds; 


变量 进行 编码 
private CategoryrFeatureEncoder[] encoders; 
private int probes = 2; 
CategoryInteractionEncoder (int seed, CategoryFeatureEncoder... enc)} { 
Random r = new Random (seed)}).: 
seeds = new intlenc.lengthl]; 
fer Nint 1 S OF 1 < Sne longthy Lar) 1 9 对 种 子 进行 确定 性 初始 化 
seedsli] = r.nextInt().; 
} 
this.encoders = enc; 
} 
Public void addToVvector{(int!l] categories, double weight, Vector data} { 
ht] hashes = new inticategories.1lengthl]; 
for {int i = 0; i < probes; i++) { < 组 合 散 列 值 
for {int J = 0; J < categories. length; j++}) { 
hashes{[1i] += seeds{]j] * 
, encoders{[Jj|] .hashForProbe {categories[j|], 1}).: 人 特性 的 散人 
} 
int n = data.sizel(); 
for {int h : hashes) { 利用 组 合 散 列 值 来 设置 值 
he= hs n; 
if (hn < 0O} { 
hh += 1; 


WE 


data.setQuick{h, data.getQuick{({h) + weight}.; 
} 
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在 交互 特征 编码 右 中 ， 种子 @ 和 编码 划 @ 是 第 备 对 象 。 种 子 在 构造 肖 数 中 初 娘 化 人 @， 同 时 编 
码 器 队列 也 在 构造 函数 中 传人 。 在 adadqrovector () 方 法 中 ， 交 互 特征 中 每 个 变量 经 编码 器 的 散 
列 值 通 过 整数 乘法 四 运算 来 组 合 ， 该 整数 在 交互 特征 编码 器 构建 时 基于 当时 提供 的 种 子 随机 选 
择 。. 这 种 乘法 组 合 操作 确保 交互 特征 编码 融 所 选择 的 任意 特征 位 置 都 不 可 能 与 成 员 变 量 的 特征 位 
置 相 冲突 。 和 需要 注音 的 是 ，CategoryFeatureEncoder 是 上 述 代 人 码 示 例 特有 的 类 而 并 非 Mahout 
本 身 的 一 部 分 。 

也 存在 一 些 其 他 的 对 交互 特征 进行 编码 的 方法 。 例如 , 可 以 对 所 有 成 员 特征 编码 天 保存 第 一 
和 第 二 个 散 列 位 置 的 两 个 求 和 , 然后 利用 标准 的 双 散 列 算法 。 下面 的 代码 给 出 了 这 种 方法 可 能 的 
一 个 实现 过 程 : 


Public class CategorylInteractionDoubleHashingEncoder 1{ 


private CategoryFeatureEncoderl[] encoders; 

Private int probes = 2 

CategoryinteractionEncoder (CategoryFeatureEncoder... enc) { ， 对 成 员 变 量 编 码 
this.encoders = enc; 

} 

Public void adadToVector Int [] categories, double weight, Vector data) 1{ 
1 i 人 局 : 
for (int Jj = 0; categories.length; J++) { 


可“ 芝 
h0 += encoders[j] .hashForProbe (categories[j], 0); 计算 两 个 基本 的 散 列 值 
hl += encoders[j] .hashForProbelcategories[j], 1}).; 

} 


int n = data.sizel().;: 


for {int 1 = 0; i < probes; i++) { 
ho= hn0 + i * hil.; 
if (hn < 0) { 
用 在 主 全 > 
} 
data.setQuick{(h, data.getQuick(h) + weight).:; 


© 利用 组 合 散 列 值 来 设置 值 


} 

这 里 和 前 面 一 样 对 每 个 成 员 变 量 构建 编码 器 @ ,不 同 的 是 这 里 只 使 用 成 员 变 量 的 第 一 个 和 第 二 
个 探查 值 的 求 和 结果 @@。 当 计算 交互 特征 的 位 置 @ 时 ， 使 用 双 散 列 对 上 面 两 个 求 和 结果 进行 组 合 。 

上 面 两 种 做 法 都 没有 进行 严格 的 评 佑 , 但 是 两 种 方法 在 实际 中 看 上 去 效果 不 错 。 然而 具有 讽 
刺 意味 的 是 , 使 用 分 类 器 来 做 推荐 , 用 户 和 商品 的 交互 变量 是 必需 的 , 但 是 这 些 交互 变量 会 增加 
变量 编码 和 分 类 计算 的 工作 量 。 由 于 Shop It To Me 分 类 吞吐 率 要 求 相当 高 ， 分 类 系统 中 必须 要 进 
行 加 速 处 理 , 这 一 点 至 关 重 要 。 这 些 加速 处 理 过 程 不 但 避免 了 编码 的 开销 而 且 还 避免 了 分 类 计算 
本 身 的 计算 开销 。 


17.4 ”加 速 分 类 过 程 


如 前 所 述 ，Shop It To Me 对 最 终 系统 中 的 分 类 带 性 能 有 永恒 如 一 的 需求 ， 即 要 求 分 类 达到 慰 
人 的 速度 。 为 了 能 在 可 用 的 不 多 的 机 带 上 实现 每 秒 钟 上 千 万 的 分 类 需求 , 必须 要 在 基本 的 Mahout 
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之 上 进行 改进 。 由 于 使 用 的 内 部 特征 向 量 超过 100 000 个 元 素 ， 即 使 不 考虑 特征 编码 ， 采 用 原始 
的 方法 来 达到 所 需 的 分 类 速度 就 需要 每 秒 钟 完 成 数 和 干 亿 的 浮 点 运算 。 要 在 仅 仪 几 十 个 CPU 核 的 情 
况 下 ， 要 完成 该 任务 不 太 现 实 。 

为 满足 上 述 需求 ，Shop It To Me 工程 师 们 做 出 了 如 下 改进 : 

口 将 部 分 编码 的 特征 向 量 放 入 缓存 ; 

D 在 编码 硕 内 部 将 散 列 位 置 值 放 入 组 存 ; 

口 将 檬 型 的 计算 过 程 划 片 来 保证 每 个 厂 能 够 分 开 被 缓存 。 

上 述 改 进 措施 最 终 将 运行 时 的 模型 计算 归结 成 3 个 查 表 和 2 个 加 法 操作 ,必须 的 预 处 理 包 括 每 
个 用 户 一 个 编码 运算 及 模型 计算 , 每 个 商品 上 有 几 百 这 样 的 计算 。 上 述 修改 种 来 的 总 体 消耗 市 省 
量 达 到 了 3 到 4 个 数量 级 , 这 使 得 整个 模型 计算 完全 切实 可 行 。 这 里 列 出 的 改进 措施 看 上 去 有 点 简 
单 ， 但 是 却 提供 了 一 个 强 有 力 的 Mahout 分 类 扩展 方法 。 如 果 庶 者 的 项 目 当 中 所 需要 的 行 吐 率 和 
Shop It To Me 一 样 高， 那么 就 可 以 考虑 采用 上 述 章 新 性 方法 。 


17.4.1 ”特征 向 量 的 线性 组 合 


Mahout 中 的 特征 提取 系统 将 各 个 分 开 的 特征 癌 量 相 加 得 到 总 的 特征 癌 量 。 在 Shop It To Me 这 

个 案例 中 ， 特 征 问 量 可 以 分 成 3 部 分 ,分 别 与 用 户 、 阐 品 及 两 者 同时 相关 。 
X 一 X 用 户 十 X (品牌 偏好 簇 -+ 年 龄 组 ) 商品 品牌 十 区 商 品 

由 于 可 以 将 各 部 分 放 和 人 缓存 中 而 不 需要 每 次 在 评估 模型 时 立即 计算 它们 的 值 , 这 种 划分 很 明 
显 有 助 于 降低 特征 编码 的 开销 。 

由 于 整个 特征 癌 量 很 大 ， 所 以 缓存 它 不 是 很 起 作用 。 而 由 于 各 独立 部 分 的 数目 要 小 得 多 , 所 
以 部 分 绥 存 能 起 作用 。 基 本 上 来 说 ， 大 缓存 所 需 的 容量 大 概 是 多 个 小 绥 存 容量 的 乘积 。 

图 17-7 给 出 的 是 在 上 述 特征 提取 的 3 个 部 分 如 何 用 于 模型 得 分 计算 的 过 程 。 


组 合 特 加 权 后 计算 线 ”转换 成 
征 向 量 的 特征 性 得 分 “概率 值 


OE 


商品 特征 


图 17-7 Mahout SGD Logistic 回 归 模 型 评分 的 流程 


利用 上 述 3 个 部 分 特征 提取 的 绥 存 技术 可 以 在 茶 种 程度 上 起 到 加 速 作用 ,但 是 单独 来 看 ， 这 
种 缓存 技术 叶 致 的 速度 提升 并 不 够 。 当 然 ， 它 为 其 他 的 改进 方法 况 定 了 基础 。 
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17.4.2 ”模型 得 分 的 线性 扩展 


将 特征 回 量 分 成 三 部 分 能 对 特征 编码 起 到 加 速 作用 , 但 是 利用 特征 问 量 进行 的 模型 计算 在 最 
后 一 步 之 前 都 是 在 进行 线性 操作 。 这 能 够 允许 使 用 更 积极 的 缓存 技术 。 此 外 ,计算 后 面部 分 绥 存 
的 元 素 会 小 很 多 。 

诸如 Mahout SGD 模 型 的 Logistic 回 归 模 型 的 运行 方式 如 下 : 首先 对 特征 进行 加 权 求 和 ， 然 后 
将 该 值 归 一 化 到 0~1 之 间 。 如 采 是 对 值 排 序 ， 那 么 最 后 的 归 一 化 转换 过 程 可 以 省 略 ， 因 为 它 不 会 
改变 最 终结 果 的 顺序 。 在 Mahout 中 , AbstractVectorClassifier 中 的 classifyScalarNoLink 
(Vector) 方 法 就 正好 省 略 了 最 后 的 转换 过 程 。 

一 旦 去 挥 最 终 的 转换 过 程 , 模型 就 是 一 个 简单 的 加 权 求 和 结果 ,那么 就 可 以 使 用 特征 癌 量 的 
一 个 线性 组 合 。 利 用 内 积 表示 方法 ， 模 型 的 输出 z 可 以 写成 : 

2=—p * Xx 

这 里 的 6 代表 模型 中 每 个 特征 的 权重 ,而 x 代表 模型 中 用 到 的 特征 。 这 两 个 符号 代表 的 都 是 问 
量 伸 。 这 里 的 买 号 代表 的 是 问 量 的 内 积 计算 ， 及 将 6 和 x 对 应 元 素 相 有 习 之 后 再 求 和 。 所 有 的 密集 计 
算 都 发 生 在 这 里 的 癌 量 内 积 计 算 中 。 注 意 到 上 述 公 式 可 以 按照 特征 问 量 划分 的 方式 拆 分 成 三 


部 分 : 


2 二 “XX 用 户 十 “六 (品牌 偏好 能 + 年 龄 组 ) . 商品 品牌 十 ”商品 
上 述 拆 分 过 程 可 以 通过 修改 图 17-7 生 动 地 表示 出 来 , 图 17-7 给 出 的 是 Mahout SGD 模 型 的 计算 
流程 ， 这 样 的 话 更 多 的 计算 就 可 以 在 最 终 组 合 之 前 分 别 完 成 。 
图 17-8 给 出 了 是 用 户 、 商 品 及 有 用户- 商品 特征 在 得 分 组 合 之 前 分 别 应 用 于 权重 回 量 B 的 情况 。 
这 种 方法 的 一 个 明智 之 处 在 于 上 述 三 个 部 分 现在 都 能 高 效 缓存 。 


加 权 后 
的 特征 


用 户 特 征 i 
组 合并 计算 ”转换 成 
线性 得 分 。 ”概率 什 


De S| 
用 户 一 商品 
0 


图 17-8 在 允许 预计 算 和 中 间 结 果 绥 存 的 情况 下 如 何 重 新 组 织 模型 评分 的 过 程 示意 图 
很 重要 的 一 点 是 ， 每 部 分 的 值 现 在 都 是 单个 浮 点 数 而 不 是 向 量 ， 因 此 在 满 命中 率 的 情况 下 ， 
对 特定 用 户 和 商品 的 单个 模型 计算 的 开销 就 会 从 几 王 次 浮 点 运算 下 降 到 仅仅 两 次 查 表 和 两 次 加 
法 运算 。 由 于 得 分 的 用 户 部 分 在 内 循环 的 外 面 计算 ,所 以 这 里 只 有 两 次 查 表 运 算 。 而 缓存 小 对 象 
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也 会 减少 内 存 开销 ， 使 得 能 够 缓存 更 多 的 商品 。 
代码 清单 17-2 给 出 了 上 述 思 路 的 实现 代码 。 


代码 清单 17-2 ”使 用 缓存 技术 和 部 分 模型 评估 来 加 速 商品 选择 过 程 
Public class ModelEvaluator f 
private OnlineLogisticRegression model:; 全 从 其 他 代码 获得 
private List<Item> items = Lists.newArrayList!(); 
private Map<Item, Double> itemCache = Maps.newHashMap(); 
private Map<Long, Double> interactionCache = Maps.newHashMap()}).; 
private FeatureEncoder encoder = new FeatureEncoder!()}).; 
Public List<ScoredItem> toplItems (User u, int limit) { 
Vector userVector = 
new RandomAccessSparseVector (model .numFeatures{(})); 9 仅 对 用 户 进行 一 次 评分 
) 


encoder.addUserFeatures{u, USerVector).; 
double userScore = model.classifyScalarNoLink (userVector). 
PriorityQueue<ScoredItem> r = 9 累加 最 佳 优 先 级 队列 


new PriorityQueue<Scoredltem> (); 


for (Ttem item : items) { | 查找 缓存 的 商品 得 分 
Double itemScore = itemCache.get (item). 
if (itemScore == null) f{ 


Vector Vv = new RandomAccessSparseVector(model .numFeatures()}.; 
encoder.addItemFeatures{item, Vv); 


itemScore = model.classifyScalarNoLink{(v); 若 未 发现， 则 计算 得 分 
itemCache.put (item, itemScore}).; 
} 9 查找 缓存 的 交互 成 分 
long code = encoder.interactionHash{(u, item); 
Double interactionScore = interactionCache.get code ) : 
if (interactionScore == null) f 


Vector Vv = new RandomAccessSparseVector{({model .numFeatures()})); 
encoder.addIinteractions{(u, item, Vv): 
interactionScore = model.classifyScalarNoLink(v).; 
interactionCache.put (code, interactionScore); 

} 

double score = userScore + itemScore 0 组 合 各 部 分 

+ interactionScore; 

r.add{(new ScoredItem(score, item)).; 

while {(r.size{(}) > limit) { 
r.poll(): 

} 

} 


return Lists.newArrayList(r); 

} 

上 面 这 个 类 给 出 了 一 个 简化 的 代码 片段 ， 该 片段 可 以 通过 商品 和 交互 信息 缓存 来 评估 模型 。 
假设 在 上 述 代码 中 ， 模 型 和 商品 列表 通过 其 他 方式 传人 @， 

该 类 的 功能 是 , 给 定 某 个 用 户 时 首先 计算 该 用 户 的 得 分 的 组 成 部 分 @, 然后 扫描 所 有 商品 的 
列表 并 对 每 个 商品 计算 模型 得 分 。 具有 最 高 得 分 的 那些 商品 被 保留 @。 模型 得 分 需要 计算 三 个 部 
分 。 用 户 变量 那 一 部 分 在 商品 循环 之 外 计算 @ 并 保留 。 然 后 在 内 循环 ， 如 果 商 品 @ 和 用 户 -商品 
交互 特征 @ 没 有 在 适当 的 缓存 数据 结构 中 发 现 ， 那 么 它们 会 分 别 计算 。FeatureEncoder 是 一 个 用 


310 第 17 章 案例 分 析 一 一 Shop It To Me 


于 为 各 种 不 同 用 户 、 商 品 及 它们 的 交互 特征 的 编码 大 进行 包 效 的 便利 类 。 最 后 ,各 部 分 的 得 分 组 
合成 最 终 得 分 @。 

很 明显 , 采用 这 种 方式 来 拆 分 醒 型 计算 过 程 并 不 简单 , 但 是 有 些 情况 下 由 于 能 够 起 到 大 幅度 
加 速 作 用 所 以 还 是 值得 的 。 


17.5 小结 


在 本 章 给 出 的 在 线 营 销 案例 中 ,我 们 介绍 了 Shop It To Me 的 工程 师 们 在 开发 Mahout 分 类 器 所 
用 到 的 一 些 创 新 技术 ， 他 们 利用 这 些 技术 来 预测 用 户 对 看 到 的 商品 是 否 点 击 。 他 们 使 用 Mahout 
分 类 各 不 管 是 在 训练 还 是 对 真实 数据 运行 部 署 所 能 达到 的 速度 和 规模 展示 了 如 何在 大 规模 问题 
上 应 用 Mahout。 

这 一 章 学 到 的 有 关 分 类 的 一 些 原 则 已 经 应 用 于 Shop It To Me 的 实际 系统 中 。 一 个 重要 的 思路 
是 ,分 类 能 够 在 一 个 排除 传统 推荐 方法 的 系统 中 作为 得 到 类 似 推 荐 结果 的 一 种 有 效 方法 。 

该 案例 曾 示 的 为 一 个 重要 的 原则 是 一 开始 对 问题 进行 仔细 分 析 很 有 价值 , 特别 是 关键 点 的 考 
察 相当 重要 ， 如果 在 工程 设计 中 不 考虑 这 些 关 键 点 可 能 会 影响 最 终 的 成 功 。 这 些 关 键 点 党 第 来 日 
极 问 的 速度 和 规模 需求 , Shop It To Me 这 个 在 线 营 销 系 统 的 案例 中 给 出 了 大 量 的 上 述 挑战 性 问题 。 
对 问题 进行 分 析 可 以 让 工程 师 意 识 到 他 们 的 系统 切换 到 Mahout 分 关 的 价值 所 在 ,并 且 能 够 确定 需 
要 一 些 定制 来 扩展 Mahout 的 效果 。 

Shop It To Me 这 个 案例 也 展示 了 利用 大 规模 联结 来 实现 并 行 训练 流水 线 的 威力 ， 这 也 是 上 一 
草 中 需要 掌握 的 关键 点 。 谈 者 可 能 会 发 现 , 有 很 多 应 用 当中 都 可 以 通过 这 种 方法 来 构建 流水 线 来 
满足 超大 项 目的 规模 和 速度 的 需要 。 

该 案例 中 时 给 出 了 在 Shop It To Me 系统 中 所 用 的 车 新 性 技术 。 这 些 新 技术 包括 对 象 排序 模型 
学 习 及 元 学 习 中 的 分 组 AUC 使 用 。 以 排序 和 回归 为 组 合 目标 的 学 习 看 上 去 对 几乎 所 有 的 SGD 学 习 
应 用 十 分 有 效 。 每 当 分 类 带 用 作 推 荐 程序 时 以 分 组 AUC 作 为 AdaptiveLogisticRegression 
的 目标 来 优化 元 参数 的 学 习 看 起 来 是 一 个 十 分 有 效 的 策略 。 

就 耕 吐 率 而 言 , 这 里 的 最 大 经 验 是 缓存 策略 用 于 加 速 Mahout 分 类 从 的 多 种 做 法 。 这 些 方法 包 
括 部 分 编码 特征 向 量 的 缓存 、 编 码 器 内 散 列 位 置 的 缓存 以 及 将 模型 计算 拆 分 成 可 以 各 自 独 立 缓存 
的 片段 。 即 使 Shop It To Me 在 Mahout 分 类 中 使 用 了 很 多 新 技术 ， 但 是 这 绝 不 是 事情 的 终点 。 训 练 
速度 的 提高 仍然 有 相当 的 空间 ， 而 且 现 有 的 部 普 系 统 不 太 可 能 压榨 了 所 有 的 速度 空间 。 

Mahout 到 底 能 走 多 远 是 下 一 章 的 主题 ， 而 这 一 草 的 创作 就 留 给 读者 自己 来 完成 。 


JVM 调 优 


这 一 附录 讨论 在 基于 Mahout 的 非 分 布 式 应 用 中 , 如 何 通过 优化 JVM 配 置 来 提升 性 能 。 这 并 不 
是 Hadoop 的 优化 指 商 ，Hadoop 的 优化 本 号 就 是 一 个 庞大 的 话题 。 这 里 的 优化 针对 非 分 布 式 的 
Mahout， 主 要 是 关于 推荐 引擎 的 实现 。 尽 管 这 些 配 置 很 可 能 对 于 任何 基于 Java 的 服务 需 端 进程 都 
会 有 效 ， 但 主要 目标 还 是 优化 基于 非 分 布 式 Mahout 的 推荐 引擎 。 

当 使 用 一 个 规模 庞大 的 数据 集 时 ( 可 能 是 1 千 万 甚至 更 多 的 偏好 值 ), 调 优 JVM 配 置 来 改善 
性 能 具有 重要 意义 。 与 堆 相 关 (内存 相关 ) 的 配置 是 最 为 重要 的 。 尺 管 最 优 配 置 取 决 于 多 方面 
因素 ， 如 操作 系统 、 可 用 资源 、 架 构 以 及 JVM 等 ,但 下 列 JVM 配 置 项 将 会 给 你 一 个 较为 理想 的 
初始 配置 。 

表 A-1 列 出 了 Mahout 相 关 的 一 些 选项 ， 除 了 -xxX:NewRatio， 其 余 选 项 在 所 有 已 知 的 Java 6 
JVM 中 都 是 有 效 的 ， 相 关 解 释 见 下 表 。 


表 A-1 优化 推荐 系统 涉及 的 JVM 关 键 参 数 


参 数 描 述 
-Xmx 设 定 Java 人 允许 使 用 的 最 大 堆 空 间 。 例 如 -xmx512m 表 示 堆 空间 上 限 为 S12 MB 
-Server 现代 JVM 有 两 个 重要 标志 : -client 和 -server， 分 别 为 客户 端 程序 ( 运行 时 间 短 、 占 


用 资源 少 ) 和 服务 器 端 程序 ( 长 时 间 运行 、 资 源 密集 型 ) 选择 合适 的 JVM 配 置 。 默 认 值 
取决 于 具体 的 JVM 和 环境 。 显 然 ， 在 这 里 -server 更 合适 


-932 和 -ad64 分 别 设 定 32 位 和 64 位 模式 。 在 一 合 64 位 的 机 需 上 ,两 种 都 是 有 效 的 。 尽 管 通 稼 情况 下 最 
好 是 让 JVM 目 己 决 定 , 但 选择 32 位 模式 可 以 降低 内 存 需 求 。 当 然 ，32 位 模式 下 不 可 能 使 
用 超过 2 ~ 3 GB 的 堆 空 间 (具体 取决 于 VM ) ,但 是 如 果 和 需求 达 不 到 这 一 界限 的 话 ， 市 
省 一 些 内 存 也 不 失 为 一 个 好 的 选择 。 在 64 位 机 带 上 选择 32 位 模式 会 导致 轻微 的 性 能 损失 


Was 有 一 部 分 堆 空 间 是 为 生命 周期 很 怎 的 临时 对 象 保留 的 ,不 能 用 于 生命 周期 较 长 的 数据 结 
构 。Mahout 在 运行 时 是 有 偏向 的 : 它 很 少 创建 临时 对 象 ， 而 生命 周期 长 的 对 象 则 需要 
消耗 大 量 堆 空间 。 爽 认 情 况 下 用 于 临时 对 象 的 堆 空 间 比例 太 大 , 这 显得 有 些 浪费 。 此 选 
项 可 控制 用 于 临时 对 象 的 空间 比例 ,例如 ， 设 为 12 时 ， 只 有 112 的 堆 空 间 用 于 保存 临时 
对 象 。 注 意 ， 此 选项 是 Sun JVM 所 特有 的 


-XX:+UseParallelGC 和 通过 并 行 的 垃圾 收集 机 制 使 JVM 更 好 地 利用 多 个 处 理 器 或 单一 处 理 吉 的 多 个 核 ( 这 在 当 
-XX:+UseParallelOldGCc 前 的 时 面 平 台 上 都 已 经 很 普遍 了 ) 


312 附录 A JVM 调 优 


为 了 演示 这 些 JVM 配 置 项 的 效果 ， 我 们 用 代码 清单 4-2 中 的 代码 进行 了 试验 。 首 先 从 默认 的 
32 位 客户 疹 JVM 开 始 : -client -d32 -Xmx512m。 这 些 都 是 JVM 标 志 ， 而 非 程序 标志 ， 所 以 它 
们 需要 出 现在 程序 的 类 名 之 前 。 我 们 使 用 一 个 现代 的 64 位 计算 机 来 进行 测试 , 负载 评估 结果 显示 
推荐 时 间 为 425 ms， 稳 定 状态 下 需要 消耗 248 MB 堆 空 间 。( 你 自己 的 测试 结果 中 时 间 和 堆 空 间 都 
有 可 能 跟 这 里 不 同 。) 

如 果 我 们 将 -client 和 荐 换 为 -servez 呢 ? 性 能 应 该 有 所 提高 。 测 试 结 果 显 示 ,， 内存 用 量 没 有 
变化 ， 但 推荐 时 间 降 为 192 ms。 这 表明 为 服务 需 端 模式 优化 的 JVM 更 适合 此 类 应 用 。 

现在 , 将 -ad32 改 为 -a64。 你 将 遇 到 outofMemoryErzror 错 误 。 你 可 能 需要 分 配 768 MB 的 堆 
空间 ( -Xmx768m )， 然 后 再 次 运行 。 推 荐 速度 再 次 提升 ， 时 间 降 至 142 ms。 这 并 不 奇怪 ， 在 64 
位 机 船上 64 位 模式 效率 更 高 。 稳 定 状 态 下 的 内 存 需求 则 几乎 没 变 : 256 MB。 从 设计 上 讲 ，64 位 
模式 增加 的 内 存 需求 用 在 对 象 和 引用 上 ， 而 与 Mahout 的 推 存 引 擎 创建 的 长 时 对 象 关系 不 大 。 

你 可 能 注意 到 一 个 奇怪 现象 : 既然 稳定 状态 下 的 内 存 需求 仅 为 236 MB ， 为 什么 在 可 用 内 存 
为 512 MB 的 情况 下 , JVM 还 会 因为 堆 空间 不 足 而 出 错 ? 在 构建 pataModqel 的 in-memory 数 据 表示 
过 程 中 ， 内 和 存 需 求 会 有 一 个 峰值 。 

你 可 以 尝试 -XxX:+NewRatio=12 标 志 ， 它 会 将 内 存 用 量 降 至 640 MB。 

最 后 ， 试 试 加 上 -xx:+UseParallelGC -XX:+UseParallel01dGC。 当 可 用 的 处 理 闫 核 不 
止 一 个 时 ， 这 会 允许 垃圾 收集 与 主 计算 过 程 并 行 执行 。 在 我 们 的 测试 机 器 上 ， 推 荐 时 间 降 至 126 
ms。 与 最 初 的 425 ms 比 起 来 要 好 多 了 。 

图 A-1 显 示 了 在 一 个 现代 计算 机 上 上 ， 不 合适 的 JVM 配 置 会 导致 推荐 时 间 增 长 至 原来 的 3.5 倍 。 
任何 部 蜀 在 严肃 场合 的 推荐 引擎 都 必须 进行 适当 的 优化 。 


客户 端 JVM，32 位 


服务 慌 沛 JVM 国人 


64 位 JVM 


0 350 100 150 200 250 300 350 400 430 


图 A-1 推荐 时 间 随 着 JVM 的 优化 而 不 断 降低 (单位: ms ) 


Mahout 数 学 基础 


Mahout 实 现 的 很 多 算法 都 高 度 依赖 于 问 量 和 和 矩阵 相关 的 数学 知识 。Mahout 目 己 的 math 模 块 
就 有 自 包 含 的 问 量 和 和 矩阵 数学 工具 库 ， 并 且 该 模块 可 以 脱离 Mahout 单 独 使 用 ， 它 实际 上 是 CERN 
的 Colt 库 (http://dsd.lbl.gov/~hoschek/colt/ ) 的 一 个 改编 版 本 。 

本 附录 从 实用 的 角度 概述 了 Mahout math 模 块 中 的 关键 部 分 ( 在 使 用 Mahout 时 ， 用 户 常 常会 
遇 到 )。 它 们 包括 Vector 和 Matrix 实 例 ， 以 及 相关 的 运算 。 这 个 附录 并 非 十 分 完善 的 文档 ， 读 
者 感 兴趣 的 话 可 以 通过 Mahout 项 目 中 的 Javadoc 文 档 和 源 代码 进一步 了 解 细节 。 


B.1 向 量 


尽管 不 同 地 方术 语 “ 向 量 ” 的 意义 基本 类 似 , 但 在 不 同 的 上 下 文中 其 含义 还 是 有 细微 差别 的 。 
大 部 分 人 都 是 首次 在 物理 学 中 见 到 向量 ， 在 那里 它 表 示 方 向 并 且 通 常用 箭头 展示 。 为 达到 目的 ， 
有 时 我 们 使 用 向 量 来 代表 空间 中 的 点 。 这 里 的 思路 与 以 前 并 没有 不 同 ， 只 不 过 这 里 的 点 对 应 坐标 
原点 到 该 点 的 向 量 。 

在 机 融 学 习 和 Mahout 中 , 很 多 时 候 是 在 一 个 更 抽象 的 意义 上 使 用 回 量 , 这 时 的 回 量 并 不 一 定 
对 应 某 个 几何 上 的 解释 。 回 量 可 以 只 是 一 个 元 组 或 者 有 序数 值 列 表 。 疝 量 有 长 度 ( 或 者 称 为 维度 )， 
向量 中 从 0 到 长 度 减 1 的 每 个 索引 (也 叫 位 置 ) 上 有 某 个 数值 。 癌 量 通 常 写成 诸如 (2.3, 1.55, 0.0) 
之 类 的 数值 列表 。 例 如 ， 上 面 这 个 向 量 的 长 度 为 3， 索 引 1 位 置 上 的 值 为 1.5$。 在 机 需 学 习 中 ， 有 
时 候 人 处理 的 癌 量 长 度 达到 上 百 万 级 。 


B.1.1 向量 实现 


org.apache.mahout .math 中 的 Vector 是 一 个 应 用 时 才 实 现 的 接口 。 该 接口 有 多 个 实现 。 
将 回 量 以 方 省 内 存 的 方式 表示 , 并且 提 供 向 量 值 的 快速 访问 , 对 于 Mahout 来 说 相当 重要 。 根据 问 
量 的 本 质 和 使 用 方式 的 不 同 ， 完 成 上 述 要 求 的 最 佳 做 法 也 不 相同 。 

最 重要 的 考虑 因素 是 回 量 数据 的 稀世 度 (sparseness ) 或 密集 度 〈denseness )。 很 多 情况 下 ， 
相对 于 回 量 长 度 来 说 ， 只 有 很 少 位 置 上 的 值 才 不 为 零 , 这 也 意味 肴 其 他 位 置 上 的 值 都 为 零 。 如 采 
一 个 长 度 为 1000 的 问 量 只 有 2 个 位 置 上 的 值 不 为 零 , 那么 和 两 个 非 零 数 值 一 起 保存 其 余 998 个 夫 不 
会 有 多 大 意义 。 当 然 ， 如 末 有 100 个 位 置 上 的 数值 为 零 ， 那 么 浪费 的 空间 看 起 来 就 没 那 么 大 了 。 
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如 果 相 对 于 长 度 来 说 ， 有 相对 较 多 位 置 上 的 值 不 为 零 ， 癌 量 称 为 密集 癌 量 。 这 种 问 量 可 以 通 
过 双 浮 点 数 数 组 保存 数值 来 实现 。 此 时 问 量 的 索引 位 置 就 耳 接 对 应 数组 的 下 标 。 密 集 癌 量 的 优势 
在 于 速度 。 由 于 按 数组 保存 ， 因此 访问 和 更 新 任意 值 都 很 快 。 DenseVector 提 供 了 这 样 一 种 实现 。 

稀 踊 回 量 要 求 一 种 不 同 的 实现 方式 。 为 了 不 浪费 空间 存储 零 信 , 它 只 存储 非 零 值 的 索引 位 置 
和 对 应 值 。 我 们 可 以 使 用 散 列 表 来 实现 从 索引 位 置 到 信 的 简单 映射 。 访 问 索 引 位 置 会 比 直 接 的 数 
组 访问 要 慢 ， 但 是 也 不 会 慢 太 多 。RandomaccessSspareseVectozr 是 上 述 思 想 的 一 个 实现 。 

基于 散 列 的 问 量 实现 有 一 个 问题 ,如 采 按 索引 位 置 顺序 循环 访问 所 有 问 量 值 , 那么 速度 相对 
变 慢 ,而 按 位 置 对 回 量 过 历 是 一 个 比较 频 迷 的 需求 。 由 于 基于 树 绪 构 的 有 序 映 射 以 及 类 似 思 路 按 
序 维护 主键 ， 所 以 它们 可 以 解决 这 个 问题 ， 这 种 结构 市 来 的 代价 是 更 长 的 访问 时 间 。 
SequentialAccessSparseVector 是 第 三 种 也 是 最 后 一 种 问 量 实现 方式 ， 它 能 满足 上 述 要 求 。 
图 B-1 给 出 了 密集 癌 量 和 稀 玖 问 量 的 例子 。 


em [rT Te TT Te 


图 B-1 密集 问 量 被 表示 成 一 个 完整 数组 ， 因 此 只 需要 保存 双 浮 点 值 。 稀 臣 回 量 并 不 对 
去 分 量 分 配 空间 ， 因 此 需要 保存 一 个 整数 来 指出 每 个 非 零 双 浮 点 数值 的 脓 引 位 
置 。 保 存 的 值 都 用 方 框框 住 ， 其 他 值 则 很 明确 不 需要 保存 


B.1.2 ”向 量 操作 


下 面 介 绍 Vector 中 常用 的 方法 。 

get (int) 和 set (int，double) 方 法 提供 了 对 癌 量 的 基本 操作 ， 分别 访问 和 修改 索引 位 置 
上 对 应 的 回 量 值 。getouick (int) 和 setouick(int，dqouble) 方 法 完成 的 功能 与 前 面相 同 ， 
但 是 没有 提供 边界 检查 功能 , 这 有 助 于 内 部 性 能 优化 。 其 他 调用 程序 或 许 应 该 坚持 使 用 前 两 个 方 
法 。 正 如 预期 的 那样 ，size() 返 回 的 是 回 量 长 度 。 

我 们 可 以 通过 iterator () 和 iterateNonzero() 完 成 对 所 有 回 量 元 系 的 遍历 ,前 者 访问 所 
有 索引 位 置 的 所 有 元 素 , 而 后 者 只 访问 非 零 元 系 。 这 些 方法 返回 的 Iterator 对 应 Element 对 象 ， 
其 中 封装 了 索引 位 置 和 对 应 值 。 

这 里 实现 的 标准 clone () 方 法 用 于 Vector 的 复制 , 实现 时 也 提供 了 构造 函数 的 副本 。l1ike () 
方法 返回 一 个 同类 的 空 Vector。 这 是 一 种 工厂 方法 ( factory method )。 

最 后 ， 我 们 介绍 math 模 块 中 涉及 数学 的 地 方 。plus (Vector) 和 minus (Vector) 方 法 提供 
了 标准 的 向 量 加 法 和 减法 运算 。 我 们 也 可 以 通过 times (double) 或 divide (double) 实 现 癌 量 
对 一 标量 的 乘法 和 除法 运算 。 另 请 注意 方法 aot (Vector) 和 cross (Vector) ， 前 者 实现 癌 量 的 
内 积 (或 点 积 ) 运算 ， 后 者 创建 了 两 个 癌 量 元 素 两 两 相 乘 得 到 的 窍 阵 。 
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B.1.3 ”局 级 的 问 量 方法 


运 今 为 止 提 到 的 方法 都 像 预 期 一 样 下 接 了 当 。vVector 中 的 第 一 个 不 平 几 方法 是 assign 
(Vector, DoubleDoubleFunction)., 该 方法 对 Vector 进 行 修改 ， 将 其 值 设 为 该 ectorz 和 另 
一 个 Vector 的 伸 上 的 某 个 消 数 的 结果 。DoubleDoubleFunction 封 疙 了 一 个 也 数 ， 该 孙 数 接受 
两 个 输入 值 ， 输 出 一 个 结 来 数值 。 这 个 方法 与 前 面 的 基本 方法 没有 本 质 区 别 , 但 可 以 让 你 的 操作 
更 局 效 。 

例如 , 给 定向 量 4 和 向 量 B, 计算 C=m4-B, 其 中 m 是 一 个 标量 。 这 可 以 通过 如 代码 清单 B-1 
所 示 的 myOperation 方 法 来 实现 。 


代码 清单 B-1 高 效 实 现 Vector 运 算 
Vector myOperation{({Vector A, Vector B, double m) { 
return A.times {(m) .minus (B}: 


) 


Vector myFasterOperation{Vector A, Vector B, final double m) { 
A.assign{B, new DoubleDoubleFunction(}) { 
public double apply(ldouble a, double bb) { 
return a * m -~- bb; 
} 
] 


} 

不 论 是 myoperation 还 是 myFastoperation 都 能 完成 上 述 任务 。 第 一 种 方法 很 简单 ,但 是 
却 要 比 看 起 来 慢 一 些 。 两 次 数学 运算 中 的 每 一 次 都 要 分 配 一 个 全 新 的 Vector 对 象 ， 并 且 这 些 
Vector 也 要 遍历 两 次 。 然 而 ， 第 二 种 方法 并 不 分 配 新 的 Vector 对 象 ， 它 破坏 性 地 更 改 A， 这 可 
能 十 分 便利 并 如 我 们 所 愿 。 并 且 ， 它 只 需要 对 回 量 做 一 次 过 历 就 可 以 计算 出 结 

adgtregqate(DoubleDoubleFunction，DoubleFunction) 方 法 能 够 简化 基于 回 量 所 有 元 
素 值 的 孔 数 的 计算 过 程 ,特别 当 与 Functions 中 现成 的 函数 结合 使 用 时 。 例如 , 要 计算 回 量 所 有 
值 的 平方 和 和， 可 以 采用 代码 清单 B-2 中 的 任意 一 个 方法 来 实现 。 


代码 清单 B-2 计算 累积 值 
double mySumOfSquares (Vector A) { 
double sum = 0.0,; 
for (Element ee : A.iterateNonzZero(})}) { 
Sum += e.get(})} * e.get!(); 
} 
return sum; 


} 


double myOtherSsumOfSquares (Vector A) 1{ 
return A.aggregate (Functions.PLUS, Functions.SQOUARE); 
} 


其 中 ， 在 当前 场景 下 ， 第 二 种 实现 方法 效率 要 低 一 些 , 但 是 它 要 更 紧 竣 一 些 。 
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B.2 和 矩阵 


与 向 量 不 同 , 矩阵 没有 什么 区 义 ， 而 且 谈 者 可 能 对 它 更 丈 悉 一 些 ， 因 为 至 少 可 能 在 数学 诗 上 
看 到 过 和 矩阵 的 运算 。 和 矩阵 就 是 一 张 数 值 表 。 这 种 简单 的 构 型 被 证 明 在 物理 学 和 线性 代数 中 表示 概 
念 时 十 分 有 用 ,进而 也 扩展 到 了 机 带 学 习 中 。 这 些 领 域 中 矩阵 运算 是 算法 的 基本 组 成 部 分 , Mahout 
在 多 处 都 使 用 了 和 矩阵。 通常 来 说 ， 在 Mahout 中 将 矩阵 的 行 或 列 看 成 向 量 非常 有 用 。 

Mahout 中 的 矩阵 表示 为 接口 Matrix 的 实现 。 其 实现 方式 和 Vector 相同 ， 即 为 不 同 场景 或 使 
用 模式 来 进行 相应 优化 从 而 得 到 多 个 类 的 Matrix 实 现 。 符 阵 也 有 类 似 的 稀 朴 性 问题 。 
SparseMatrix 和 DenseMatrix 分 别 代表 相对 于 规模 来 说 非 零 元 素 很 少 和 很 多 的 和 矩阵。 

SparseRowMatrix 和 SparseColumnMatrix 是 两 个 很 有 趣 的 SparseMatrix 空 种 分 别 应 
用 于 和 矩阵 行 或 列 常 第 当做 一 个 访问 单位 ( 即 一 个 癌 量 ) 的 情况 。SsparseRowMatrix 应 用 于 非 零 
行 很 少 ， 但 是 每 行 又 必须 作为 问 量 来 访问 的 情况 。 而 SparsecolumnMatrix 则 应 用 于 相同 的 列 
问 量 情况 。 


和 矩阵 操作 


Vector 中 的 大 部 分 方法 也 在 Matzix 中 人 存在， 当然 矩阵 固有 的 二 维 性 质 使 这 些 方法 存在 形式 
稍 有 不 同 。 例 如 ，get (int, int) 方 法 返回 的 是 特定 行列 号 的 矩阵 元 素 值 ， 而 size () 同 时 返回 
矩阵 的 行 数 和 列 数 。1Like() 方 法 和 clone () 方 法 的 处 理 也 以 此 类 推 。 像 类 似 assign (double) 
的 便捷 操作 一 样 ， 这 里 支持 对 行列 绑 定 标签 。 

Matrix 分 别提 供 了 和 矩阵 加 法 和 乘法 的 实现 : plus (Matrix) 及 times (Matrix)。 其 他 常见 
的 矩阵 运算 还 包括 和 矩阵 的 转 置 transpose () 和 行列 式 计算 determinant ()。 

和 抢 阵 运算 本 身 并 没有 什么 令 人 惊讶 之 处 ， 但 是 可 以 用 一 种 紧凑 的 方式 来 实现 原本 复杂 的 运 
算 。 人 例如， 代码 清单 B-3 给 出 的 是 一 个 庆 xz 的 矩阵 ， 和 一 个 zx 维 问 量 〈 可 以 看 成 是 一 个 zx 1 的 矩 
阵 ) 的 乘积 。 


代码 清单 B-3 ” 怎 阵 和 回 量 的 乘积 


Vector vector = new Seduent1lalAccessSbarseVector (了 ) ， 


Matrix matrix = new SparseMatrix (new int[] {m, nn}).: 

Matrix vectorAsMatrix = new SparseColumnMatrix(new int[l] {n, 1}); 
VectorAsMatrix.assignColumn (0, vector).: 

Matrix productMatrix = matrix.times (vectorAsMatrix).; 

Vector progduct = productMatrix.getColumn (0).,; 


上 面 这 种 运算 第 津 在 线性 代数 和 机 各 学 习 中 出 现 ， 从 上 面 可 以 看 到 通过 Mahout math 模 块 实 
现 这 类 运算 十 分 简单。 
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B.3 Mahout math 和 Hadoop 


Matrix 和 Vector 的 实现 常常 用 于 Hadoop 相 关 的 Map 和 Reduce 任 务 中 。 这 也 意味 着 它们 必 
须 可 序列 化 ， 即 可 以 转换 为 可 存储 、 传 输 和 重 构 的 字 市 序列 。Hadoop 并 没有 Java 的 标准 序列 化 
机 制 java.io.Serializable 来 实现 Matrix 和 Vector 的 序列 化 。 实 际 上 ， 它 为 此 定义 了 一 个 
十 分 类 似 的 接口 Writablel。 为 使 目 己 能 够 以 键 - 值 方式 在 Hadoop 中 使 用 ,类 会 实现 Writable 
接口 。 

Vector 和 Matrix 自 己 没 有 扩展 Writable， 因为 这 样 做 会 使 math 模 块 依赖 于 Hadoop， 而 在 
概念 上 它 并 不 依赖 于 Hadoop 之 类 的 系统 ,在 核心 的 Mahout 模 块 中 , 你 可 以 发 现 VectorWritable 
和 Matrixwritable， 它 们 分 别 实 现 了 vector 和 Matrix 的 Wzitable 接 口 。 它 们 封装 了 关于 如 
何在 Hadoop 中 序列 化 向 量 或 矩阵 的 知识 。 在读 取 或 者 写 和 信 癌 量 或 矩阵 的 Map 和 Reduce 任 务 中 ,这 
些 类 中 原始 (raw ) 的 接口 实现 要 在 传 给 Hadoop 之 前 进行 包装 ， 返 回 时 也 是 同样 格式 。 


相关 贷 产 


互联 网 总 能 够 提供 要 多 、 更 新 的 机 器 学 习 和 Mahout 相 关 资 源 ; 请 使 用 你 喜欢 的 搜索 引擎 搜索 
协同 过 滤 ( collaborative filtering )、 聚 类 ( clustering )、 分 类 (classification ) 等 主题 。 你 也 可 以 使 
用 面 回 人 研究 领域 的 搜索 引擎 ， 比 如 Google Scholar ( http://scholar.google.com )。 

这 里 给 出 了 一 些 经 典 的 论文 和 参考 资料 ， 以 帮助 大 家 进一步 理解 Mahout 和 本 书 的 内 容 。 
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Mahout in Action 通过 收集 数据 来 学 习 和 演进 的 计算 机 系统 
威力 无 穷 。Mahout 作 为 Apache 的 开源 机 器 学 
习 项 目 ， 把 推荐 系统 、 分 类 和 聚 类 等 领域 的 核 
心算 法 浓缩 到 了 可 扩展 的 现成 的 库 中 。 使 用 
Mahout， 你 可 以 立即 在 自己 的 项 目 中 应 用 亚 
马 了 还 、Netflix 及 其 他 互联 网 公司 所 采用 的 机 器 
学 习 技 术 。 


本 书 出 自 Mahout 核 心 成 员 之 手 ， 得 到 
Apache 官 方 推荐 ， 权 威 性 毋 良 置疑 。 作 者 任 
借 多 年 实战 经 验 ， 为 读者 展现 了 丰富 的 应 用 案 


“全 面 介 绍 Mahout 机 器 学 习 实 战 的 佳作 。” 例 ， 并 细致 地 介绍 了 Mahout 的 解决 之 道 。 本 
一 一 |sabel Drost，Apache Mahout 创 始 人 书 还 重点 讨论 了 可 扩展 性 问题 ， 介 绍 了 如 何 利 


用 Apache Hadoop 框 架 应 对 大 数据 的 挑战 。 


-深入浅出 ， 复 杂 概 念 都 讲解 得 透彻 明白 。” 
一 一 Rick Wagner，Red Hat 本 书 内 容 : 
0 @ 利 用 分 组 数据 实现 个 性 化 推荐 ; 

@ 寻 找 数据 中 的 逻辑 禾 ; 
@ 通 过 即时 分 类 实现 过 滤 与 调 优 。 


“出 自 核心 开发 团队 之 手 ， 学 习 Mahout 众 读 。" 
一 一 Philipp K. Janert，Gnuplot in Action 作者 
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